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内 容 拓 要 


本 书 是 一 部 UNIX 网 络 编程 的 经 典 之 作 ! 书 中 全 面 深入 地 介绍 了 如 
何 使 用 套 接 字 API 进 行 网 络 编程 。 全 书 不 但 介绍 了 基本 编程 内 容 ， 还 涵 
莱 了 与 套 接 字 编 程 相关 的 局 级 主题 ， 对 于 客户 /服务 砷 程序 的 各 种 设计 
方法 也 作 了 完整 的 探讨 ， 最 后 还 深入 分 析 了 流 这 种 设备 驱动 机 制 。 
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部 分 习题 的 答案 ， 是 网 络 研究 和 开发 人 员 理想 的 参考 书 。 





版 权 声 明 


Authorized translation from the English language edition, entitled UNIX 
Network Programming, Volume 1: The Sockets Networking API, Third 
Edition, 9780131411555 by W. Richard Stevens, Bill Fenner, and Andrew 
M. Rudoff, published by Pearson Education, Inc., publishing as Addison- 
Wesley, Copyright @ 2004 by Pearson Education, Inc. 


All rights reserved. No part of this book may be reproduced or 
transmitted in any form or by any means, electronic or mechanical, including 
photocopying, recording or by any information storage retrieval system, 
without permission from Pearson Education, Inc. 


CHINESE SIMPLIFIED language edition published by PEARSON 
EDUCATION ASIA LTD. and POSTS & TELECOM PRESS Copyright O 
2015. 


本 书 中 文 简体 字 版 由 Pearson Education Asia Ltd. 授 权 人 民 邮 电 出 版 
社 独家 出 版 。 末 经 出 版 者 书面 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书生 
合 。 








本 书 封 面 贴 有 Pearson Education 〈 培 生 教 育 出 版 集团 ) 激光 防伪 标 
签 ， 无 标签 者 不 得 销售 。 


版 权 所 有 ， 侵 权 必 完 。 





FÉ 


本 书 的 第 1 版 本 于 1990 年 问世 ， 并 迅速 成 为 程序 员 学 习 网 络 编程 的 
权威 参考 书 。 时 至 今日 ， 计 算 机 网 络 技术 已 发 生 了 翻天 履 地 的 变化 。 只 
要 看 看 第 1 版 给 出 的 用 于 征集 反馈 意见 的 地 址 (“uunet!hsilnetbook”) Wè 
一 日 了 然 了 。 〈 有 多 少 读者 能 看 出 这 是 20 世 纪 80 年 代 很 流行 的 UUCP 拨 
号 网 络 的 地 址 ? ) 











现在 UUCP 网 络 已 经 很 罕见 了 ， 而 无 线 网 络 等 新 技术 则 变 得 无 处 不 
E! 在 这 种 背景 下 ， 新 的 网 络 协议 和 编程 范 型 业已 开发 出 来 ， 但 程序 员 
却 天 于 找 不 到 一 本 好 的 参考 书 来 学 习 这 些 复杂 的 新 技术 。 


这 本 书 填 补 了 这 一 空白。 拥有 本 书 旧版 的 读者 一 定 想 要 一 个 新 的 版 
本 来 学 习 新 的 编程 方法 ， 了 解 IPv6 等 下 一 代 协 议 方面 的 新 和 内容。 所 有 人 
都 非常 期 竺 本 书 ， 因 为 它 完 美 地 结合 了 实践 经 验 、 历 史 视 角 以 及 在 本 领 
域 漫 洲 多 年 才能 获得 的 透彻 理解 。 


























阅读 本 书 是 一 种 孚 受 ， 我 收获 项 丰 。 相 信 大 家 定 会 有 同感 。 


Sam Leffler 
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概述 


本 书面 癌 的 读者 是 那些 希望 目 己 编写 的 程序 能 使 用 称 为 套 接 字 
(socket) 的 API 进 行 彼此 通信 的 人 。 有 些 读者 可 能 已 经 非常 熟悉 套 接 字 
了 ， 因 为 这 个 模型 几乎 已 经 成 了 网 络 编程 的 同义词 ， 但 有 些 读者 可 能 仍 
再 要 从 头 开 始 学 习 。 本 书 想 达到 的 目标 是 同 大 家 提供 网 络 编程 指导 。 这 
些 内 容 不 仅 适 用 于 专业 人 士 ， 也 适用 于 初学 者 ; 不仅 适 用 于 维护 已 有 代 
码 ， 也 适用 于 开发 新 的 网 络 应 用 程序 ， 此 外 ， 还 适用 于 那些 只 是 想 了 解 
一 下 自己 系统 中 网 络 组 件 的 工作 原理 的 人 。 


书 中 的 所 有 示例 都 是 在 Unix 系 统 上 测试 通过 的 真实 的 、 可 运行 的 代 
码 。 但 是 ， 考 虑 到 许多 非 Unix 的 操作 系统 也 支持 套 接 字 API， 因 而 我 们 
选取 的 示例 与 所 讲述 的 一 般 性 概念 ， 在 很 大 程度 上 是 与 操作 系统 无 关 
的 。 几 乎 每 种 操作 系统 都 提供 了 大 量 的 网 络 应 用 程序 ， 如 网 页 浏览 器 、 
电子 邮件 客户 端 、 文 件 共享 服务 器 等 。 我 们 按 常 规 的 划分 方法 把 这 些 应 
全 全 
列 。 

面向 Unix 介 绍 网 络 编程 自然 免不了 要 介绍 Unix 本 身 和 TCP/ 耻 的 相关 
背景 知识 。 需 要 更 详尽 的 背景 知识 时 ， 我 们 会 指引 读者 查阅 其 他 书籍 。 
本 书 中 经 常 提 到 以 下 4 本 书 ， 我 们 将 其 简 记 如 下 : 














APUE: Advanced Programming in the UNIX Environment [Stevens 
1992]; 

TCPv1: TCP/IP Illustrated, Volume 1 [Stevens 1994]; 

TCPv2: TCP/IP Illustrated, Volume 2 [Wright and Stevens 1995]; 
TCPv3: TCP/IP Illustrated, Volume 3 [Stevens 1996]. 


其 中 TCPv2 包 含 了 与 本 书 内 容 密切 相关 的 细节 ， 它 描述 并 给 出 了 套 
接 字 API 中 网 络 编程 函数 (socket、bind、connect 等 ) 的 真实 4.4BSD 实 
现 。 如 果 已 经 理解 某 个 特性 的 实现 ， 那 么 在 应 用 程序 中 使 用 该 特性 就 更 

意义 了 。 


与 第 2 版 的 区 别 


日 ， 
此 ， 


AY, 
会 觉 





从 20 世 纪 80 年 代 开 始 ， 套 接 字 就 着 不 多 是 现在 这 个 样子 了 。 时 至 今 
套 接 字 仍 然 是 网 络 API 的 首选 ， 其 最 初 的 设计 的 确 值得 称道 。 
当 读者 发 现 我 们 对 出 版 于 1998 年 的 第 2 版 又 做 了 不 少 改动 时 ， 可 能 
得 惊讶 。 本 书 中 所 做 的 改动 归纳 如 下 。 





新 版 本 包含 了 IPv6 的 最 新 信息 。 在 第 2 版 出 版 时 ，IPv6 尚 处 于 草案 

阶段 ， 这 些 年 来 已 经 有 所 发 展 。 

更 新 了 全 部 函数 和 示例 的 描述 ， 以 反映 最 新 的 POSIX 规 范 (POSIX 

1003.1-2001) , B[Single Unix Specification Version 3. 

删 去 了 X/Open 传 输 接口 CXTD 的 内 容 。 这 个 API 已 经 不 常用 了 ， 

连 最 新 的 POSIX 规范 也 不 再 提 到 。 

删 去 了 事务 TCP 协 议 CT/TCPO WAR. 

新 增 了 三 章 用 于 描述 一 种 相对 较 新 的 传输 协议 一 SCTP。 这 个 可 

靠 的 面 癌 消息 的 协议 能 够 在 两 个 端点 之 间 提 供 多 个 流 ， 并 为 多 归属 

技术 提供 传输 层 文 持 。 该 协议 最 初 是 为 了 在 因特网 上 传输 电话 信和 号 

而 设计 的 ， 但 它 的 一 些 特性 可 以 用 于 许多 应 用 。 

新 增 一 章 描述 密 钥 管 理 套 接 字 ， 该 套 接 字 可 用 于 网 际 协议 安全 
(IPsec) 和 其 他 网 络 安全 服务 。 

第 2 版 中 使 用 的 机 器 及 Unix 变 体 都 按 最 新 版 本 更 新 ， 示 例 也 根据 机 

器 的 特性 做 了 修改 。 许 多 情况 下 ， 修 改 示 例 是 因为 操作 系统 厂商 修 

正 了 程序 缺陷 或 者 新 增 了 特性 。 但 读者 可 以 想见 ， 新 的 缺陷 总 能 不 

时 地 被 发 现 。 本 书 中 用 于 测试 示例 的 机 器 如 下 : 

运行 MacOS/X 的 Apple Power PC; 

运行 HP-UX 11i 的 HP PA-RISC; 

运行 AIX 5.1 的 IBM Power PC; 

运行 FreeBSD 4.8 的 Intel x86; 

运行 Linux 的 Intel x86; 

运行 FreeBSD 5.1 的 Sun SPARC; 

运行 Solaris 9 的 Sun SPARC. 


这 些 机 器 的 具体 用 法 见 图 1-16。 
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本 系列 的 第 2 卷 《UNIX 网 络 编程 ”“ 卷 2: 进程 间 通 信 》 ) 基于 本 
卷 的 内 容 进一步 讨论 了 消息 传递 、 同 步 、 共 享 内 存 及 远程 过 程 调 用 。 





如 何 使 用 本 书 


本 书 既 可 以 作为 网 络 编程 的 教程 ， 也 可 以 作为 有 经 验 的 程序 员 的 参 
考 书 。 用 作 网 络 编程 的 教程 或 入 门 级 教材 时 ， 重 点 应 放 在 第 二 部 分 (第 
3 章 至 第 11 章 ) ， 然 后 可 以 看 看 其 他 感 兴趣 的 主题 。 第 二 部 分 包含 了 
TCP 和 UDP 的 基本 套 接 字 函 数 ， 以 及 SCTP、LIO 多 路 复 用 、 套 接 字 选项 
和 基本 名 字 与 地 址 的 转换 。 所 有 读者 都 应 该 阅读 第 1 章 ， 尤 其 是 1.4 节 ， 
介绍 了 一 些 贯穿 全 书 的 包 囊 函数 。 读 者 可 以 根据 自身 的 知识 背景 ， 选 读 
第 2 章 ， 或 许 还 有 附录 A。 第 三 部 分 的 多 数 章节 可 以 彼此 独立 地 进行 阅 


读 。 











为 了 方便 读者 把 本 书 作 为 参考 书 ， 本 书 提供 了 完整 的 全 文 索引 ， 并 
在 最 后 儿 页 总 结 了 每 个 函数 和 结构 的 详细 描述 在 正文 中 的 哪里 可 以 找 
到 。 为 了 给 不 按 顺 序 阅 读本 书 的 读者 提供 方便 ， 我 们 在 全 书 中 为 相关 主 
题 提 供 了 大 量 的 交叉 引用 。 





VS STK 


书 中 所 有 示例 的 源 代 码 可 以 从 www.unpbook.com 获 得 哑 。 学 习 网 络 
编程 的 最 好 方法 就 是 下 载 这 些 程序 ， 对 其 进行 修改 和 改进 。 只 有 这 样 实 
际 编写 代码 才能 深入 理解 有 关 概 念 和 方法 。 每 章 末尾 提供 了 大 量 的 习 
题 ， 大 部 分 在 附录 E 中 给 出 答案 。 





本 书 的 最 新 勘误 表 也 可 以 在 上 述 网 站 获取 。 
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第 一 部 分 ”简介 
简介 和 TCP/I 
P 


第 1 章 ”人 简介 


1.1 概述 


要 编写 通过 计算 机 网 络 通信 的 程序 ， 首 先 要 确定 这 些 程序 相互 通信 
所 用 的 协议 〈protocol) 。 在 深入 设计 一 个 协议 的 细节 之 前 ， 应 该 从 高 
层次 决断 通信 由 哪个 程序 发 起 以 及 啊 应 在 何 时 产生 。 举 例 来 说 ， 一 般 认 
为 Web 服 务 器 程序 是 一 个 长 时 间 运 行 的 程序 “〈 即 所 谓 的 守护 程序 ， 
daemon) ， 它 只 在 啊 应 来 自 网 络 的 请 求 时 才 发 送 网 络 消息 。 协 议 的 另 一 
端 是 Web 客户 程序 ， 如 某 种 浏览 堪 ， 与 服务 髓 进程 的 通信 息 是 由 客户 进 
程 发 起 。 大 多 数 网 络 应 用 就 是 按照 划分 成 客户 Client) 和 服务 器 
(server) 册 来 组 织 的 。 在 设计 网 络 应 用 包 时 ， 确 定 总 是 由 客户 发 起 请 求 
往往 能 够 简化 协议 和 程序 旦 本 身 。 当 然 一 些 较为 复杂 的 网 络 应 用 还 需要 
异步 回调 (asynchron-ous callbaclo) 通 信 ， 也 就 是 由 服务 器 辐 客 户 发 起 请 求 
消息 。 然 而 坚持 采纳 图 1-1 所 示 的 基本 客户 /服务 器 模型 的 网 络 应 用 毕竟 
要 普 裔 得 多 。 














应 用 协议 





图 1-1 网 络 应 用 ， 客 户 和 服务 器 

通常 客户 每 次 只 与 一 个 服务 器 通信 ， 不 过 以 使 用 Web 浏 览 器 为 例 ， 

我 们 也 许 在 10 分 钟 内 就 可 以 与 许多 不 同 的 Web 服 务 器 通信 。 从 服务 器 的 

角度 来 看 ， 一 个 服务 器 同时 与 多 个 客户 通信 并 不 稀奇 ， 见 图 1-2。 本 书 
后 面 将 介绍 告 干 种 让 一 个 服务 器 同时 处 理 多 个 客户 请 求 的 方法 。 
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图 1-2 一 个 服务 器 同时 处 理 多 个 客户 的 请 求 








可 认为 客户 与 服务 器 之 间 是 通过 某 个 网 络 协 议 通 信 的 ， 但 实际 上 ， 
这 样 的 通信 通常 涉及 多 个 网 络 协 议 层 。 本 书 的 焦点 是 TCP/IP 协 议 族 ， 也 
称 为 网 际 协 议 族 。 举 例 来 襄 ，Web 客 户 与 服务 占 之 间 使 用 
TCP (Transmission Control Protocol， 传 输 控 制 协议 ) 通信 。TCP 又 转 而 
使 用 IP (Internet Protocol， 网 际 协议 ) 通信 ，IP 再 通过 某 种 形式 的 数据 
ideam 如 果 客 户 与 服务 器 处 于 同一 个 以 太 网 ， 就 有 图 1-3 所 示 的 
通信 层次 。 








图 1-3 ”客户 与 服务 器 使 用 TCP 在 同一 个 以 太 网 中 通信 





尽管 客户 与 服务 器 之 间 使 用 某 个 应 用 协议 通信 ， 传 输 层 却 使 用 TCP 
通信 。 注 意 ， 客 户 与 服务 器 之 间 的 信息 流 在 其 中 一 端 是 向 下 通过 协议 栈 
的 ， 跨 越 网 络 后 ， 在 另 一 端 则 是 向 上 通过 协议 栈 的 。 另 外 注意 ， 客 户 和 
服务 器 通常 是 用 户 进 程 ， 而 TCP 和 IP 协 议 通常 是 内 核 中 协议 栈 的 一 部 
分 。 我 们 在 图 1-3 右 边 标 出 了 4 个 层 。 
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本 书 讨论 的 协议 不 限于 TCP 和 IP。 有 些 客户 和 服务 器 改 用 

UDP (User Datagram Protocol， 用 户 数 据 报 协议 ) 而 不 是 TCP， 第 2 章 将 
详细 介绍 这 两 个 协议 。 此 外 ， 本 书 使 用 术语 “IP” 来 称谓 的 那个 协议 ， 自 
20 世 纪 80 年 代 早 期 以 来 一 直 在 使 用 ， 其 实 其 正式 名 称 是 IPv4 CIP version 
4，IP 版 本 4) 。IPv4 的 一 个 新 版 本 IPv6 CIP version 6，IP 版 本 6) 是 在 20 
世纪 90 年 代 中 期 开发 出 来 的 ， 将 来 会 取代 IPv4。 本 书 既 讨论 使 用 IPv4 的 
网 络 应 用 程序 的 开发 ， 也 讨论 使 用 IPv6 的 网 络 应 用 程序 的 开发 。 附 录 A 
会 给 出 ITPv4 和 IPv6 的 一 个 比较 ， 同 时 介绍 正文 中 将 讨论 的 其 他 协议 。 


同一 网 络 应 用 的 客户 和 服务 器 无 需 如 图 1-3 所 示 处 于 同一 个 局 域 网 
(local area network, LAN) 。 例 如 ， 图 1-4 展 示 了 处 于 不 同 局 域 网 中 的 











客户 和 服务 器 ， 而 这 两 个 局 域 网 是 使 用 路 由 器 (router) 连接 到 广域网 
(wide area network, WAN) 的 。 








m 


TCPAP 
的 主机 








WAN | 





g N Ms N P E / x 
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图 1-4 ”处 于 不 同 局 域 网 的 客户 主机 和 服务 器 主机 通过 广域网 连接 


路 由 器 是 广域网 的 架构 设备 。 当 今 最 大 的 广域网 是 因特网 
® (internet) 。 许 多 公司 也 构建 自己 的 广域网 ， 而 这 些 私 用 的 广域网 既 
可 以 连接 到 因特网 ， 也 可 以 不 连接 到 因特网 。 


本 章 其 余部 分 将 概述 多 个 主题 ， 这 些 主题 在 后 续 章 节 中 还 会 具体 介 
绍 。 我 们 从 一 个 尽管 简单 却 完整 的 TCP 客 户 程 序 开始 ， 它 展示 了 全 书 都 
会 遇 到 的 许多 函数 调用 和 概念 。 这 个 客户 程序 只 能 在 IPv4 上 和 运行， 不 过 
我 们 会 给 出 让 它 在 IPv6 上 运行 所 需 进 行 的 修改 。 更 好 的 办 法 是 编写 独立 
于 协议 的 客户 和 服务 圳 程序， 这 在 第 11 章 中 会 讨论 。 本 章 同 时 展示 一 个 
与 该 TCP 客 户 程序 配合 工作 的 完整 的 TCP 服 务 顺 程 序 。 
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为 了 简化 代码 ， 我 们 对 本 书 中 要 调用 的 大 多 数 系统 函数 定义 了 各 目 
的 包 庄 函数 。 多 数 情况 下 我 们 可 以 使 用 这 些 包 右 函 数 来 检查 错误 ， 输 出 
适当 的 消 轧 ， 以 及 在 出 错时 终止 程序 的 运行 。 我 们 还 给 出 了 本 书 中 大 多 
数 例子 所 用 的 测试 网 络 、 主 机 、 路 由 器 以 及 它们 的 主机 名 、IP 地 址 和 操 


ZAN o 


如 今 讨 论 Unix 时 经 常 使 用 POSIX 一 词 ， 它 是 一 种 被 多 数 厂商 采纳 的 
标准 。 我 们 将 介绍 POSIX 的 历史 以 及 它 对 本 书 所 讲述 的 API 的 影响 ， 并 
介绍 该 领域 的 其 他 主要 标准 。 





1.2 ”一 个 简单 的 时 间 获 取 客 户 程序 


让 我 们 考虑 一 个 具体 的 例子 ， 引 入 将 在 本 书 中 遇 到 的 许多 概念 和 说 
法 。 图 1- M t uc Ji. 该 客户 与 其 
服务 器 建 立 一 个 TCP 连 接 后 ， 服 务 器 以 直观 可 读 格 式 简单 地 送 回 当前 时 
间 和 日 期 。 





inmacdayrimerepet.c 


L fincluce "unp.h" 

i irt 

3 mintirt arqe, char 4*arqv 

4 i 

5 int neckfd, ne 

& char secvline [MAXL NE - 1]: 

7 ntruct sockaddr_in sarmddr: 

3 if sarge f= 2i 

$ urr yulli "usuago; u okl «IPaddress?"]); 

19 [o4 (exo sikedq(Nm TNTT, SZOK $T37AM, Mii < fü 
il err sysí"sockez error"); 

12 Lasro(&servaddr, siseuliservadecr)): 

13 servaidr.sin family = Ar INZIT? 

14 Servaudr.sin porl - alone il): /* davLi ESL 

15 if (iret ptoniAF INET, avcví1], seservaddy.sin addr) <= 小 
lb err ULLI LSBL phon arros Lor te”, argvill] 

ie Ff dense nk (SA 5) ssenvosklr, GixeofinsnexdBr)) < 0) 
13 err sysí"conunect error"; 
13 while | ir = -zesdisocktd, recviine, MAXLINE)) > 0) { 
22 recvilzne[r] = €; /* mull terminate */ 
SL ift (rputs(recyviins, stdout) = ECF 
22 exr sys("fputs error")? 
oJ 
24 if in < 0) 
wy err sysi"read error"); 


niirocdeytimetcpcl;.e 


Kj1-5 TCP 时 间 获 取 客 户 程 序 
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这 就 是 本 书 用 于 展示 所 有 源 代 码 的 格式 。 每 个 非 空 行 都 被 编排 行 





号 。 如 稍 后 所 示 ， 代 码 正 文 讲解 部 分 一 开始 标注 该 段 代码 起 始 与 结束 的 
行 号 。 有 的 段落 会 以 一 个 简短 的 、 描 述 性 的 醒目 标题 起 头 ， 对 所 讲解 代 
码 段 进行 概要 说 明 。 


每 个 源 代 码 段 起 始 与 结束 处 的 水 平 线 标 出 了 该 代码 段 所 在 的 源 代 码 
文件 名 ， 对 于 本 例 就 是 intro 目 录 下 的 daytimetcpcli.c 文 件 
(intro/daytimetcpcli.c) 。 本 书 所 有 例子 的 源 代码 都 可 免费 获得 ( 见 
前 言 ，， 在 此 标注 它们 的 文件 名 便于 读者 找到 其 源 文件 。 在 阅读 本 书 期 
间 ， 编 译 、 运 行 特别 是 修改 这 些 程序 是 学 习 网 络 编程 概念 的 好 方法 。 


整 本 书 中 我 们 随时 会 插入 缩 进 的 小 字号 段落 〈 如 此 处 所 示 ) 来 说 明 
实现 的 细节 和 历史 上 的 观点 。 


如 果 编 译 该 程序 生成 默认 的 a.out 可 执行 文件 后 执行 它 ， 我 们 会 得 
到 如 下 结果 : 








solaris % a.out 206.168.112.96 我 们 的 输入 
Mon May 26 20:58:40 2003 程序 的 输出 





当 我 们 展示 交互 的 输入 和 输出 时 ， 输 入 总 是 采用 加 粗 的 等 宽 字 体 ， 
而 计算 机 的 输出 总 是 采用 不 加 粗 的 等 宽 字 体 。 注 释 用 宋体 字 加 在 右边 。 
作为 Shell 提 示 一 部 分 的 系统 名 字 《〈 本 例 中 为 solaris) 指明 在 哪个 主机 上 
执行 该 命令 。 图 1-16 展 示 了 用 于 运行 本 书 中 大 多 数 例 子 的 各 个 系统 ， 它 
们 的 主机 名 本 身 通 常 就 说 明了 各 目的 操作 系统 。 


在 这 个 短 短 27 行 的 程序 中 有 许多 细节 值得 考虑 。 这 里 我 们 简短 地 提 
一 下 ， 目 的 是 让 初次 遇 到 网 络 程序 的 读者 有 所 准备 ， 本 书后 面 会 更 详细 
地 说 明 这 些 内 容 。 
包含 头 文件 

1 包含 我 们 自己 编写 的 名 为 unp.h 的 头 文件 ， 见 D.1 节 。 该 头 文件 
包含 了 大 部 分 网 络 程序 都 需要 的 许多 系统 头 文 件 ， 并 定义 了 所 用 到 的 各 
种 常 值 号 〔( 如 MAXLINE) 。 
命令 行 参数 


2~3 remain XL, HERS AOI SR. AGH 




















的 代码 假设 使 用 ANSI C 编 译 器 〈 也 称 为 ISO C 编 译 器 ) 编写 。 
创建 TCP 套 接 字 


10-11 ” socket 函数 创建 一 个 网 际 Car INETO 字 节 流 
(sock sTREAM) 套 接 字 ， 它 是 TCP 套 接 字 的 花哨 名 字 。 该 函数 返回 一 个 
小 整数 捅 述 符 ， 以 后 的 所 有 函数 调用 (如 随后 的 connect 和 read) 就 用 
该 描述 符 来 标识 这 个 套 接 字 。 
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if 语句 包含 3 个 操作 : 调用 socket 函 数 ， 把 返回 值 赋 给 变量 
sockfd， 再 测试 所 赋 的 这 个 值 是 否 小 于 0。 虽 然 我 们 可 以 把 该 语句 分 割 
成 两 条 C 语 句 : 


sockfd = socket(AF INET, SOCK STREAM, 0); 
if (sockfd < 0) 


但 是 把 这 两 行 合 并 成 一 行 却 是 常见 的 C 语 言 习 惯用 法 。 按 照 C 语 言 
的 优先 规则 《小 于 运算 符 的 优先 级 高 于 赋值 运算 符 ) ， 函 数 调用 和 赋值 
语句 外 边 的 那 对 括号 是 必需 的 。 作 为 一 种 编码 风格 ， 作 者 总 是 在 这 样 的 
两 个 左 括号 间 加 一 个 空格 ， 提 示 比 较 运 算 的 左 侧 同 时 也 是 一 个 赋值 运 
算 。 (这 种 风格 借鉴 自 Minix 源 代码 [Tenenbaum 1987] . ) 该 程序 稍 
后 的 while 语 句 也 使 用 相同 的 样式 。 


后 面 我 们 将 遇 到 术语 套 接 字 (socket) 的 许多 不 同 用 法 。 首 先 ， 
我 们 正在 使 用 的 API 称 为 套 接 字 API (sockets API) 。 上 一 段 中 名 
为 socket 的 函数 就 是 套 接 字 API 的 一 部 分 。 上 一 段 中 我 们 还 提 到 了 “TCP 
套 接 字 ”， 它 是 “TCP 端 点 ”(TCP endpoint) 的 同义词 。 


如 果 socket 函 数 调 用 失败 ， 我 们 就 调用 目 己 的 err_sys 函 数 放弃 程 
序 运 行 。err_sys 函 数 输 出 我 们 作为 参数 提供 的 出 错 消 息 以 及 所 发 生 的 
系统 错误 的 描述 〈 例 如 出 自 socket 函 数 的 可 能 错误 之 一 “Proto-col ^ not 
supported” CEMAASSESCREO ) ， 然 后 终止 进程 。 这 个 函数 和 以 err_ 开 
头 的 其 他 知 干 个 函数 都 是 我 们 目 行 编写 的 ， 它 们 的 调用 将 贯穿 全 书 ， 
D.3 节 会 描述 这 些 函 数 。 


指定 服务 器 的 IP 地 址 和 端口 





12-16 ”我 们 把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 网 际 套 接 字 地 址 
结构 (一 个 名 为 servaddr 的 sockaddr_in 结 构 变 量 ) 。 使 用 bzero 把 整个 
结构 清 零 后 ， 置 地址 族 为 AF_INET， 端 口号 为 13 (这 是 时 间 获 取 服 务 器 
的 众所周知 端口 ， 文 持 该 服务 的 任何 TCP/AP 主 机 都 使 用 这 个 端口 号 ， 见 
图 2-18) ，IP 地 址 为 第 一 个 命令 行 参数 的 值 (argv[1] ) 。 网 际 套 接 字 地 
址 结构 中 卫 地 址 和 端口 号 这 两 个 成 员 必 须 使 用 特定 格式 ， 为 此 我 们 调用 
库 函 数 htons 〈“ 主 机 到 网 络 短 整 数 ”) 去 转换 二 进 制 端口 号 ， 又 调用 库 
国 数 inet_pton 〈“ 呈 现形 式 到 数值 ?>) 去 把 ASCII 命 令 行 参数 〈 例 如 运行 
本 例子 所 用 的 206.168.112.96) 转换 为 合适 的 格式 。 


bzero 不 是 一 个 ANSI “C 函 数 。 它 起 源 于 早期 的 Berkeley 网 络 编程 代 
码 。 不 过 我 们 在 整 本 书 中 使 用 它 而 不 用 ANSI C 的 memset 函 数 ， 
为 bzero〈 带 2 个 参数 ) 比 memset 〈 带 3 个 参数 ) 更 好 记忆 。 几 乎 所 有 文 
持 套 接 字 API 的 广 商都 提供 bzero， 如 果 没 有 ， 那 么 可 以 使 用 unp.h 头 文 
件 中 提供 的 该 函数 的 宏 定义 。 


事实 上 ， 在 TCPv3 一 书 首次 印刷 时 ， 作 者 在 10 处 出 现 memset 函 数 的 
地 方 犯 了 错 ， 互 换 了 第 二 和 第 三 个 参数 。C 编 译 器 发 现 不 了 这 个 错误 ， 
因为 这 两 个 参数 的 类 型 是 相同 的 。 (其 实 第 二 个 参数 是 int 类 型 ， 第 三 
ERE size_t, 通常 定义 为 unsigned int 类 型 ， 然 而 分 别 指定 给 这 两 
个 参数 的 值 为 0Oo 和 16， 它 们 对 于 两 个 参数 的 类 型 同样 可 以 接受 。) 对 
memset 的 这 些 调用 仍然 正常 ， 不 过 没 做 任何 事 ， 因 为 待 初始 化 的 字 节 数 
被 指定 成 了 0。 程 序 之 所 以 仍然 工作 是 因为 只 有 少数 套 接 字 函数 要 求 网 
际 套 接 字 地 址 结构 的 最 后 8 个 字 节 置 0。 无 论 如 何 ， 这 确实 是 一 个 错误 ， 
且 是 一 个 通过 使 用 bzero 函 数 可 以 避免 的 错误 ， 因 为 如 果 使 用 函数 原 
型 ，C 编 译 器 总 能 发 现 bzero 的 两 个 参数 被 互 换 的 错误 。 
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此 处 也 许 是 你 第 一 次 遇 到 inet_pton 了 水 数 。 它 是 一 个 支持 IPv6〈 详 
见 附 录 A) 的 新 函数 。 以 前 的 代码 使 用 inet_addr 函 数 来 把 ASCII 点 分 十 
进 制 数 串 变 换 成 正确 的 格式 ， 不 过 它 有 不 少 局 限 ， 而 这 些 局 限 
在 inet_pton 中 都 得 以 纠正 。 如 果 你 的 系统 尚未 支持 该 函数 ， 那 你 可 以 
使 用 我 们 在 3.7 节 中 提供 的 它 的 一 个 实现 。 
建立 与 服务 器 的 连接 


17-18 connect 函 数 应 用 于 一 个 TCP 套 接 字 时 ， 将 与 由 它 的 第 二 个 

















参数 指向 的 侠 接 字 地 址 结构 指定 的 服务 器 建立 一 个 TCP 连 接 。 该 套 接 字 
地 址 结构 的 长 上 度 也 必须 作为 该 函数 的 第 三 个 参数 指定 ， 对 于 网 际 僚 接 字 
A ， 我 们 总 是 使 用 C 语 言 的 sizeof 操 作 符 由 编译 器 来 计算 这 个 长 


在 头 文 件 unp.h 中 ， 我 们 使 用 #define 把 SA 定义 为 struct sockaddr, 
也 就 是 通用 套 接 字 地 址 结构 。 每 当 一 个 套 接 字 函数 需要 一 个 指 同 某 个 套 
接 字 地 址 结构 的 指针 时 ， 这 个 指针 必须 强制 类 型 转换 成 一 个 指向 通用 套 
接 字 地 址 结构 的 指针 。 这 是 因为 套 接 字 函 数 早 于 ANSI CÈ, 20182 
80 年 代 早 期 开发 这 些 函 数 时 ，ANSI CC 的 void * 指 针 类 型 还 不 可 用 。 问 题 
是 “struct sockaddr" 长 达 15 个 字符 ， 往 往 造 成 源 代 码 行 超出 屏幕 〈 或 者 
书页 ， 知 是 排 印 在 书 上 ) 的 右边 缘 ， 因 此 我 们 把 它 缩减 成 SA。 我 们 将 在 
解释 图 3-3 时 详细 讨论 通用 套 接 字 地 址 结构 。 


读 入 并 输出 服务 器 的 应 答 


19-25 ”我 们 使 用 read 函 数 读 取 服务 器 的 应 答 ， 并 用 标准 的 IO 函 
数 fputs 输 出 结果 。 包 使 用 TCP 时 必须 小 心 ， 因 为 TCP 是 一 个 没有 记录 边 
界 的 字 节 流 协议 。 服 务 器 的 应 答 通 向 是 如 下 格式 的 26 字 市 字符 串 : 


Mon May 26 20:58:40 2003\r\n 


其 中 ，Nr 是 ASCII 回 车 符 ，\n 是 ASCII 换 行 符 。 使 用 字 节 流 协议 的 情 
况 下 ， 这 26 个 字 节 可 以 有 多 种 返回 方式 : 既 可 以 是 包含 所 有 26 个 字 节 的 
单个 TCP 分 节 蝶 ， 也 可 以 是 每 个 分 节 只 含 1 个 字 节 的 26 个 TCP 分 节 ， 还 可 
以 是 总 共 26 个 字 节 的 任何 其 他 组 合 。 通 常服 务 器 返回 包含 所 有 26 个 字 节 
的 单个 分 节 ， 但 是 如 果 数 据 量 很 大 ， 我 们 就 不 能 确保 一 次 read 调 用 能 返 
回 服务 器 的 整个 应 答 。 因 此 从 TCP 套 接 字 读 取 数据 时 ， 我 们 总 是 需要 把 
read 编 写 在 某 个 循环 中 ， 当 read 返 回 0 (表明 对 端 关 闭 连 接 ) 或 负 值 
(表明 发 生 错 误 ) 时 终止 循环 。 


本 例 中 ， 服 务 器 关闭 连接 表征 记录 的 结束 。HTTP (Hypertext 
Transfer ”Protocol， 超 文本 传送 协议 ) 的 1.0 版 本 也 采用 这 种 技术 。 还 可 
以 用 其 他 技术 标记 记录 结束 。 例 如 ，SMTP (Simple Mail Transfer 
Protocol， 人 简单 邮件 传送 协议 ) 使 用 由 ASCII 回 车 符 后 跟 换 行 符 构 成 的 2 
字 节 序列 标记 记录 的 结束 :Sun 远程 过 程 调 用 CRemote Procedure Call, 
RPC) 以 及 域名 系统 (Domain Name System, DNS) 在 使 用 TCP 承 载 应 








用 数据 时 ， 在 每 个 要 发 送 的 记录 之 前 放置 一 个 二 进 制 的 计数 值 ， 给 出 这 
个 记录 的 长 度 。 这 里 的 重要 概念 是 TCP 本 吴 并 不 提供 记录 结束 标志 : 如 
果 应 用 程序 需要 确定 记录 的 边界 ， 它 就 要 上 自己 去 实现 ， 已 有 一 些 和 常用 的 
方法 可 供 选 择 。 

终止 程序 


26 exit 终止 程序 运行 。Unix 在 一 个 进程 终止 时 总 是 关闭 该 进程 所 
有 打开 的 描述 人 符 ， 我 们 的 TCP 套 接 字 就 此 被 关闭 。 


9 
刚才 已 提 过 ， 本 书后 面 会 对 刚才 讲述 的 所 有 概念 深入 进行 探讨 。 





1.3 ”协议 无 关 性 


图 1-5 中 的 程序 是 与 IPv4 协 议 相 关 的 : 我 们 分 配 并 初始 化 一 
个 sockaddr_in 类 型 的 结构 ， 把 该 结构 的 协议 族 成 员 设 置 为 AF_INET， 并 
指定 socket 函 数 的 第 一 个 参数 为 AF_INET。 


为 了 让 图 1-5 中 的 程序 能 够 在 IPv6 上 运行 ， 我 们 必须 修改 这 段 代 
码 。 图 1-6 所 示 的 是 一 个 能 够 在 IPv6 上 运行 的 版 本 ， 其 中 改动 之 处 用 加 
粗 的 等 宽 字 体 突 出 显示 。 





n rei rd metta htir 


2 tincluds "urs .h” 

= in; 

3 main(int argc, char tarigi 
& d 


= 

3 int scckfd, n; 

C char rezvline[MAzLINE + 1l; 

E struct sockaddr in6 servadicr: 

if (argc !- 2) 
err quiti"usezse: a.ott <ivadiress>"); 

23 if ( [sockia = socket (Ar INET, SOCK _ITREAM, 2)) 
T3 err sysj"socket error"); 

2 br*er-i[ssevvaddr, sivenfisarvaddriy: 
kim sexvadar.siné family = AT INETÉ: 
-4 servaddr.sin6 port = h-ors(22): /* deytire server '/; 
=a if (inac_pton (AF INET6, argv[i, ssexvaddr.siné addr) <= 0) 
zE err quiti"iret rton error for $s", argv 111; 

°F iF (onmes, (SN *) &norasukie, size (Sorva) < 61 

err syni"corrn^t error"); 
l 1 reach ki I VNZITWE:): "n 

aI uw d [nj f^ 1 1 litt * 
2 U ( pabsirexc EH RP EE t OTi 
as syd Rt at ) 
Fe ) 

"M it tr 
25 ts : 


图 1-6 ”适合 于 IPv6 的 图 1-5 所 示 程 序 的 修改 版 
我 们 只 修改 了 程序 的 5 行 代码 ， 得 到 的 却 是 另 一 个 与 协议 相关 的 程 








FR: 这 回 是 与 IPv6 协 议 相 关 的 。 更 好 的 做 法 是 编写 协议 无 天 的 程序 。 图 
11-11 将 给 出 本 客户 程序 的 协议 无 关 版 本 ， 它 使 用 了 getaddrinfo 函 数 
(Htcp_connect KAH) 。 
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这 两 个 程序 的 另 一 个 不 足 之 处 是 : 用 户 必 须 以 点 分 十 进 制 数 格式 给 
出 服务 器 的 卫 地 址 〈 如 适合 于 IPv4 版 本 的 206.168.112.219) 。 人 们 更 习 
惯 于 用 名 字 【〈 如 www.unpbook.com) 来 代替 数字 。 我 们 将 在 第 11 章 中 讨 
论 主机 名 与 耳 地 址 之 间 以 及 服务 名 与 端口 之 间 的 转换 函数 。 我 们 特意 推 
迟 讨 论 这 些 函 数 ， 在 第 11 章 之 前 继续 使 用 卫 地 址 和 端口 号 ， 目 的 是 了 解 
我 们 必须 填写 和 查看 的 套 接 字 地 址 结构 的 细节 ， 避 免 被 另 一 个 函数 集 的 
细节 把 网 络 编程 的 讨论 搞 复杂 了 。 








1.8 ”错误 处 理 : AW 


任何 现实 世界 的 程序 都 必须 检查 每 个 函数 调用 是 否 返 回 错误 。 在 图 
1-5 所 示 的 程序 中 ， 我 们 检查 socket、inet_pton、connect、read 和 
fputs 函 数 是 否 返 回 错误 ， 当 发 生 错 误 时 ， 就 调用 我 们 上 自己 的 err_quit 
或 err_sys 函 数 输 出 一 个 出 错 消息 并 终止 程序 的 运行 。 我 们 发 现 绝 大 多 
数 情况 下 这 正 是 我 们 想 做 的 事 。 个 别 情况 下 ， 当 这 些 函 数 返 回 错误 时 ， 
我 们 想 做 的 事 并 非 简单 地 终止 程序 的 运行 ， 如 图 5-12 所 示 ， 我 们 必须 检 
查 系统 调用 是 否 被 中 断 了 。 

既然 发 生 错 误 时 终止 程序 的 运行 是 普 壳 的 情况 ， 我 们 可 以 通过 定义 
包 囊 函数 (wrapper function) 来 缩短 程序 。 每 个 包 囊 函数 完成 实际 的 函 
数 调用 ， 检 查 返 回 值 ， 并 在 发 生 错 误 时 终止 进程 。 我 们 约定 包 衷 函数 名 
是 实际 函数 名 的 首 字 母 大 写 形式 。 例 如 ， 在 语句 


sockfd = Socket(AF INET, SOCK STREAM, 0); 











rH, pki socket ze Phi Wsocket ZR Zi, nl 1-7 HT « 


iibavrapsect.c 


图 1-7 socket RAL LE PH AL 
在 本 书 中 只 要 你 遇 到 一 个 首 字母 大 写 的 函数 名 ， 它 就 是 我 们 定义 的 
某 个 包 于 函数 。 它 调用 的 实际 函数 的 名 字 与 包 右 函数 名 相同 ， 不 过 以 对 
应 的 小 写字 母 开头 。 


然而 在 讲解 本 书 中 提供 的 源 代 码 时 ， 我 们 总 是 指称 被 调用 的 最 低级 
别 的 函数 (如 socket ) ， 而 不 是 包 于 函数 (如 socket) 。 
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HE ALE RUIN VL gm, (ES BE 26 Pit CARE 
时 ， 将 会 发 现 线程 函 数 遇 到 错误 时 并 不 设置 标准 Unix 的 errno 变 量 ， 而 
是 把 errno 的 值 作为 函数 返回 值 返 回调 用 者 。 这 意味 着 每 次 调用 以 
pthread 开头 的 某 个 函数 时 ， 我 们 必须 分 配 一 个 变量 来 存放 函数 返回 
值 ， 以 便 在 调用 err_sys 前 把 errno 变 量 设置 成 该 值 。 为 避免 引入 花 括 号 
把 代码 弄 得 很 混乱 ， 我 们 可 以 使 用 C 语 言 的 逗号 操作 符 ， 把 errno 的 赋值 
与 err_sys 的 调用 组 合成 一 条 语句 ， 如 下 所 示 : 


int n; 








if ( (n = pthread mutex lock(&ndone mutex)) != 0) 
errno - n, err sys("pthread mutex lock error"); 


我 们 也 可 以 为 此 定义 一 个 新 的 错误 处 理 函 数 ， 它 取 系 统 的 错误 号 作 
为 一 个 参数 ， 不 过 通过 定义 如 图 1-8 所 示 的 包 奢 函数， 我 们 可 以 让 以 上 
这 上 段 代码 更 为 易 读 : 


Tb/svappibreac.c 


SP Mhra mitax look (phased mutes mir) 
74 | Sa :: 
it nt n 
76 If ( (2 — pLhizcac mulex leck(aptz)) — 2) 
: ELULE? 
CILIIO 一 IL; 
err sys ("pthread mote lock erron"); 


[1-8 pthread_mutex_lockH 35 p Zt 


Pthread mutex lock(&ndone mutex); 


要 是 仔细 推 殴 C 代 码 的 编写 ， 我 们 可 以 用 宏 来 蔡 代 函数 ， 从 而 稍微 
提高 运行 时 效率 ， 不 过 包 右 函数 很 少 是 程序 性 能 的 瓶颈 所 在 。 


选择 首 字 母 大 写 一 个 函数 名 作为 其 包 庄 函数 名 是 一 种 折 中 的 方法 。 
其 他 方法 也 考虑 过 ， 壁 如 给 函数 名 加 一 个 “e” 前 级 (如 [Kernighan and 
Pike 1984] 一 书 第 182 页 所 示 ) ， 给 函数 名 加 一 个 “_e” 后 级 ， 等 等 。 这 
些 方 法 都 能 明显 地 提示 调用 了 其 他 函数 ， 但 我 们 的 这 种 风格 看 来 是 最 少 











分 散 注意 力 的 。 


这 种 技术 还 有 助 于 检查 那些 错误 返回 值 通常 被 忽略 的 函数 是 否 出 
， 例 如 close 和 listen。 


本 书后 面 的 例子 中 ， 除 非 必 须 检查 某 个 确定 的 错误 是 否 发 生 ， 并 以 
不 同 于 终止 进程 的 其 他 某 种 方式 处 理 它 ， 和 否则 就 使 用 这 些 包 囊 函数 。 书 
中 不 提供 所 有 包 硅 函数 的 源 代码 ， 不 过 它们 是 可 以 免费 获得 的 〔( 见 前 
Fi E 
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Unix errno 值 


只 要 一 个 Unix 函 数 〈 例 如 某 个 套 接 字 函 数 ) 中 有 错误 发 生 ， 全 局 变 
量 errno 就 被 置 为 一 个 指明 该 错误 类 型 的 正 值 ， 函 数 本 和 刁 则 通常 返回 
H1. err _sys 碍 看 errno 变 量 的 值 并 输出 相应 的 出 错 消 息 ， 例 如 当 errno 
值 等 于 ETIMEDOUT 时 ， 将 输出 “Connection timed out” (连接 超时 ) 。 


errno 的 值 只 在 函数 发 和 后 错误 时 设置 。 如 果 函 数 不 返 回 错误 ，errno 
的 值 就 没有 定义 。errno 的 所 有 正 数 错误 值 都 是 第 值 ， 具 有 以 “E” 开 头 的 
并 通常 在 < sys/errno.n > 头 文 件 中 定义 。 值 0 不 表示 
和 王 何 错误 。 


在 全 局 变量 中 存放 errno 值 对 于 共享 所 有 全 局 变量 的 多 个 线程 并 不 
适合 。 我 们 将 在 第 26 章 中 讲述 解决 这 一 问题 的 方法 。 


se a UE ;这 样 的 句子 
简明 表达 以 下 意思 : 该 函数 返回 一 个 错误 (通常 函数 返回 值 为 -1) ， 同 
时 errno 被 置 为 指定 的 常 值 。 

















1.5 Sf E BJ EST TH) OR EARS i PEP 


PAT AY UiS —^ 1 fai JT CPRI TA) SR ERS SS REY, "CAU1.2 3B HJ 
客户 程序 一 道 工 作 。 图 1-9 给 出 了 这 个 服务 器 程序 ， 它 使 用 了 上 一 节 中 


DEI HY) LE K AL 


tlucludc upel 
2 Us uc ola 
int 
4 ralntint ar has **argv) 
int *atenta, conntd: 
atmet aackacer_in  aervasddy: 
shur buff EAZXLINE' ; 
Limo UL vicis? 
1 mented - et[A* IN L3 Ar ) 
11 SELL (ihselvacnl -Xzeoliservaddr 
1 ervarncór.ain fami^wv - A Keg 
1 nervardir.3in aqgar-n_ addr — htc TINADDR ANY]; 
14 servudur sin pork — htonzí(13); /* caylime eeevers 7/ 
1 ind( iatenfd, (3^ +} Sacrvaddr, sizeof izervaddr)}; 
1€ Liaten(iistentd, LISTENÇ) 
17 for (à 6 | 
1 vonid ~ Accooutlislontd, (Sk *) NULL, NULL); 
1 ticks = -ime(N ie 
2 rrp-inLf(ba[f, sizcof(xuff), "t.24sXrn", stine 


71 Writeizorntd, mtt; st-laer(botfby 


Closeizorrt?d): 


图 1-9” ”TCP 时间 获取 服务 器 程序 


创建 TCP 套 接 字 
19 ITCP 套 接 字 的 创建 与 客户 程序 相同 。 


把 服务 器 的 众所周知 端口 捆绑 到 套 接 字 








11-15 


ter cindy tinei ose 


nU noy mnm psc 
r x 


通过 填写 一 个 网 际 套 接 字 地 址 结构 并 调用 bind 函 数 ， 服 务 


器 的 众所周知 端口 〈 对 于 时 间 获 取 服 务 是 13) 被 捆绑 到 所 创建 的 套 接 
字 。 我 们 指定 IP 地 址 为 INADDR_ANY， 这 样 要 是 服务 器 主机 有 多 个 网 络 接 
口 ， 服 务 器 进程 就 可 以 在 任意 网 络 接 口上 接受 客户 连接 。 以 后 我 们 将 了 
解 怎样 限定 服务 器 进程 只 在 单个 网 络 接口 上 接受 客户 连接 。 


把 套 接 字 转 换 成 监听 套 接 字 


16 调用 1listen 函 数 把 该 僚 接 字 转 换 成 一 个 监听 和 套 接 字 ， 这 样 来 自 
客户 的 外 来 连接 就 可 在 该 套 接 字 上 由 内 核 接 受 。socket、bind 和 listen 
这 3 个 调用 步骤 是 任何 TCP 服 务 器 准备 所 谓 的 监听 描述 符 Clistening 
descriptor， 本 例 中 为 listenfd) 的 正常 步骤 。 


常 值 LISTENQ 在 我 们 的 unp.h 头 文件 中 定义 。 它 指定 系统 内 核 允 许 在 
这 个 监听 描述 符 上 排队 的 最 大 客户 连接 数 。 我 们 将 在 4.5 节 详细 说 明 客 
户 连接 的 排队 。 
接受 客户 连接 ， 发 送 应 答 

17-21 ”通常 情况 下 ， 服 务 占 进程 在 accept 调 用 中 被 投入 睡眠 ， 等 
待 某 个 客户 连接 的 到 达 并 被 内 核 接 受 。TCP 连 接 使 用 所 谓 的 三 路 握手 
(three-way handshake) 来 建立 连接 。 握 手 完毕 时 accept 返 回 ， 其 返回 
值 是 一 个 称 为 已 连接 描述 符 (connected descriptor) 的 新 描述 符 ( 本 例 
中 为 connfd) 。 访 描述 符 用 于 与 新 近 连 接 的 那个 客户 通信 。accept 为 每 
个 连接 到 本 服务 器 的 客户 返回 一 个 新 描述 符 。 


本 书 全 文采 用 的 无 限 循环 采用 以 下 风格 : 
poop i yx 


} 
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当前 时 间 和 日 期 是 由 库 函 数 time 返 回 的 ， 它 实际 上 返回 的 是 目 Unix 
纪元 即 0 点 0 分 0 秒 《国际 标准 时 间 ) 以 来 的 秒 数 。 下 一 个 库 函 数 ctime 把 
该 整数 值 转换 成 直观 可 读 的 时 间 格 式 ， 例 如 : 


Mon May 26 20:58:40 2003 


snprintf 函 数 在 这 个 字符 串 末 尾 添加 一 个 回 车 符 和 一 个 回 行 符 ， 随 
后 write 函数 把 结果 字符 串 写 给 客户 。 


如 果 你 尚 不 习惯 改 用 snprintf 代 替 较 早 的 sprintf 函 数 ， 那 么 现在 是 
学 习 的 时 候 了 。 调 用 sprintf 无 法 检查 目的 缓冲 区 是 否 溢出 。 相 
反 ，snprintf 要 求 其 第 二 个 参数 指定 目的 缓冲 区 的 大 小 ， 因 此 可 确保 该 
缓冲 区 不 溢出 。 


snprintf 相 对 较 晚 才 加 到 ANSI C 标 准 中 ， 在 称 为 ISO C99 的 版 本 中 
引入 。 不 过 几乎 所 有 厂商 都 把 它 作 为 标准 C 函 数 库 的 一 部 分 提供 ， 而 且 
另 有 许多 免费 可 得 的 版 本 可 用 。 我 们 贯穿 全 书 使 用 snprintf， 也 推荐 你 
出 于 可 靠 性 考虑 在 自己 的 程序 中 改 用 它 来 代替 sprintf。 


值得 注意 的 是 ， 许 多 网 络 入 侵 是 由 黑客 通过 发 送 数 据 ， 导 致 服务 器 
对 sprintf 的 调用 使 其 缓冲 区 溢出 而 发 生 的 。 必 须 小 心 使 用 的 函数 还 
有 gets、strcat 和 strcpy， 通 第 应 分 别 改 为 调用 fgets、strncat 和 
strncpy。 更 好 的 蔡 代 函数 是 后 来 才 引 入 的 strlcat 和 stricpy， 它 们 确保 
结果 是 正确 终止 的 字符 串 。 编 写 安全 的 网 络 程 序 的 更 多 技巧 参见 
[ Garfinkel, Schwartz, and Spafford 2003] 的 第 23 章 。 


终止 连接 


22 ”服务 右 通 过 调用 close 关 闭 与 客户 的 连接 。 该 调用 引发 正常 的 
TCP 连 接 终止 序列 : 每 个 方向 上 发 送 一 个 FIN， 每 个 FIN 又 由 各 目的 对 端 
确认 。2.6 节 将 详细 讲述 TCP 的 三 路 握手 和 用 于 终止 一 个 ITCP 连 接 的 4 个 
TCP 分 组 。 


与 上 节奏 看 客户 程序 一 样 ， 丁 查看 服务 器 程序 也 非常 简略 ， 有 具体 
细节 留待 本 书 以 后 论述 。 有 以 下 几 点 需要 注意 。 

















e 与 其 客户 程序 一 样 ， 这 一 服务 器 程序 也 与 IJPv4 协 议 相 关 。 我 们 将 在 
图 11-13 中 给 出 使 用 getaddrinfo 函 数 实现 的 一 个 协议 无 关 的 版 本 。 

本 服务 器 一 次 只 能 处 理 一 个 客户 。 如 果 多 个 客户 连接 差不多 同时 到 
达 ， 系 统 内 核 在 某 个 最 大 数目 的 限制 下 把 它们 排 入 队列 ， 然 后 每 次 
返回 一 个 给 accept 函 数 。 本 服务 器 只 需 调 用 time 和 ctime 这 两 个 库 函 
数 ， 运 行 速度 很 快 。 然 而 如 果 服 务 器 需 用 较 多 时 间 〈( 壁 如 说 几 秒 钟 
或 一 分 钟 ) 服务 每 个 客户 ， 那 么 我 们 必须 以 某 种 方式 重 癸 对 各 个 客 














户 的 服务 。 

图 1-9 中 所 示 的 服务 器 称 为 迭代 服务 器 (iterative server) ， 因 为 对 
于 每 个 客户 它 都 迭代 执行 一 次 。 同 时 能 处 理 多 个 客户 的 并 发 服务 器 
(concurrent server) 有 多 种 编写 技术 。 最 简单 的 技术 是 调用 Unix 的 
fork (4.795) ， 为 每 个 客户 创建 一 个 子 进 程 。 其 他 技术 包括 使 
用 线程 代 蔡 fork (26.415) ， 或 在 服务 右 启 动 时 预先 fork 一 定数 量 
的 子 进程 〈30.6 节 ) 。 
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如 果 从 shell 命 令 行 启动 本 例 这 样 的 一 个 服务 器 ， 我 们 也 许 想 要 它 运 
行 很 长 时 间 ， 因 为 服务 器 往往 在 系统 工作 期 间 一 直 运 行 。 这 要 求 我 
们 往 服 务 器 程序 中 添加 代码 ， 以 便 它 能 够 作为 一 个 Unix 守 护 进 程 
(daemon) 能 在 后 台 运 行 且 不 跟 任何 终端 关联 的 进程 一 一 运 
行 。 我 们 将 在 13.4 节 讨论 守护 进程 。 





1.6 ASH PAR i EY AS VAR E 


HF AE T2] FL TRR 28 inte P 56 FE E e CAS FR AI e) HAS 
需 程 序 示 例如 下 : 


e 时 间 获 取 客 户 /服务 器 程序 〈 开 始 于 图 1-5、 图 1-6 和 图 1-9) ; 
e 回 射 客户 /服务 器 程序 (开始 于 第 5 章 ) 。 


为 了 提供 本 书 所 涵盖 不 同 主题 的 路 线 图 ， 我 们 用 下 面 4 个 表格 汇总 
了 将 要 开发 的 程序 ， 并 给 出 了 它们 的 源 代码 所 在 的 起 始 图 号 。 图 1-10 列 
出 了 本 书 开 发 的 时 间 获 取 客 户 程序 的 不 同 版 本 ， 其 中 有 两 个 版 本 前 面 已 
讲 过 。 图 1-11 列 出 了 时 间 获 取 服 务 器 程序 的 不 同 版 本 。 图 1-12 列 出 了 回 
射 客户 程序 的 不 同 版 本 ， 图 1-13 列 出 了 回 射 服务 器 程序 的 不 同 版 本 。 


Fe 4 说 H 

1-5 i TCPIIPv4， 洲 说 相关 

1-6 TCP/PvS. "ibid 

11-4 TCPIPv4. IHX. VAlacthostbyname ly-tecrvzyname 
"nn TCP, IER, Wi getaddrints#ltcp_conmmect 

11-16 UIP. BIE, WHboeneddeiefoWludp clier. 

16-11 TCP. (ERIH Hoonnect 

31-8 TCP, IREX, MM rpiby (Rae Rey 

Fel TCP, GIS, Esini De 

F-5 TCP, DIRAK, Hi PEL EMER OPER Keb MSS 
E-11 TCP， 玫 议 州 流 ， 苑 许 主机 名 Cuertostsyname? WPP 
F-12 TOP, IREK, MHEMA Cyelbostiryname) 








图 1-10 ”本 书 开 发 的 时 间 获 取 客 户 程序 的 不 同 版 本 
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1-9 TOP Pa, Aital 

L1-13 TCP, WREEK. WlgenraGdrinfHep ^o sten 
LI-14 TCP， 协 议 无 区， 调用 3slagsdrinrs 和 Leb ^ osten 
{1-19 UDP, wix3X. i4] getaddrintoAlrdp server 
13-5 TCP. HWX, EUME 

13-12 TCP, "X AS X, anes FY UAE 

图 1-11 本 书 开发 的 时 间 获 取 服 务 器 程序 的 不 同 版 本 

图 5 io 明 

5-4 TCP IPv4, IRRA 

6-9 "CP, (hHsae-t 

6-13 TCP, {PH sclowt Hea Ep 

8-7 UDP/IPvA. HRGA 

8-9 UDP, Subd 252 HL A 

8-17 UDP, BR eonmect JES tb ak 

14-2 UDP， 使 用 SITCaLRN 人 号 在 读 服 务 此 的 应 答 时 月 动 超时 
144 UDP. {iA select 2 fro URS shy ee AS ay 
14-5 UDP, ífHiso RCVIZMECÉSE T 7 CE IRA PS ALIN A A mp8 E] 
15-4 Unixh*- Wi. vRXAHX 

15-6 Unixlit ryan, XH 

16-5 TCP, 1tJl]AEPHZETO 

16-10 "CP, (UHSAEfS Cork) 

16-21 TCP, Witt. SIRAGERST 

14-15 TCP. (PY /acv/pollikb Egg 

14-18 TCP, (PN «aueuexk kE yr a 

20-5 upp. D fisse HE 

20-6 UDP, Rise PR HE 

20-7 UDP, tte psslectiiikke (TLS RASA i 

20-9 UDP. JActit Hsicgsetimof siclencompi Xx weg AF 
20-10 UDP. ates See ee pb See yh TRA WE 
22-6 UDP, i£. TRATA GTER ye 

24-14 ‘第 2 版 UDP, (EHR HS eh oeg ot 
26-2 TCP. {PN ASPs 

27 TEPIP, HERRA 

27-13 UDP'TPv6， 指 定 一 条 源 路 径 











图 1-12 ”本 书 开 发 的 回 射 客户 程序 的 不 同 版 本 
9 此 处 保留 了 本 书 第 2 版 的 内 容 。 一 一 译 者 注 


图 s Ub o uj 





5-2 TCP/I.4, HX 
5-12 TCP/INA, HiX+HX. BASES S T HER 
6-21 TCP I. PRUE. Heisen. EARRA AA 


-25 TCPIP«4, dH, frei, BAEENT a 
8-3 UDP/Pv4, 4H 

8-21 TCPHIUDP v4, DxdpA JB :el1es. 

14-14 TCR, ERER RUT 

15-3 Unix pitt. HHA 

15-5 Unix ata. MASS 

15-15 Unixth Pi. AME itea El 

22-4 UDP, Eug A ENE RUNE MSAR. 3Supieed 
22-15 UDP. dab; Ade O tii 

25-4 UDP, (EHA TIE HrO 

26-3 TCP， 每 个 客户 一 个 线程 

2544 TCP, fp*EP—TER. BES ee eid 
27-6 TCP. HE CR (EPA TP 

27-14 UDP/Pv6, fyi epee CRUISE TR 

28-31 UDP, (fEiicmpuEd m ean 

H15 UDP, HEHEH AFT Abil. 


图 1-13 ”本 书 开 发 的 回 射 服务 器 程序 的 不 同 版 本 


17 OSI 模型 


描述 一 个 网 络 中 各 个 协议 层 的 常用 方法 是 使 用 国际 标准 化 组 织 
(International Organization for Standardization，ISO) 的 计算 机 通信 开放 
系统 互 连 Copen systems interconnection, OSI) 模型 。 这 是 一 个 七 层 模 
型 ， 如 图 1-14 所 示 。 图 中 同时 给 出 了 它 与 网 际 协议 族 的 近似 映射 。 














UL fir a) 
£3 sepas 





& Fr Ted zu 
图 1-14 OSI 模型 和 网 际 协议 族 中 的 各 层 


我 们 认为 OSI 模 型 的 克 下 两 层 是 随 系统 提供 的 设备 驱动 程序 和 网 络 
人 硬件 。 通 第 情况 下 ， 除 需 知 道 数 据 链 路 的 茶 些 特性 外 《如 将 在 2.11 市 论 
述 的 1500 字 节 以 太 网 的 MTU 大 小 ) ， 我 们 不 必 关 心 这 两 层 的 具体 情 
况 。 


网 络 层 由 IPv4 和 IPv6 这 两 个 协议 处 理 ， 我 们 将 在 附录 人 A 中 讲述 它 
们 。 可 以 选择 的 传输 层 有 TCP 或 UDP， 我 们 将 在 第 2 章 中 讲述 它们 。 图 1- 
14 中 TCP 与 UDP 之 间 留 有 间 际 ， 表 明 网 络 应 用 绕 过 传输 层 直 接 使 用 IPv4 
或 IPv6 是 可 能 的 。 这 就 是 所 谓 的 原始 套 接 字 (raw socket) ， 我 们 将 在 
第 28 间 中 讨论 。 


OSI 模型 的 项 上 三 层 被 合并 成 一 层 ， 称 为 应 用 层 。 这 就 是 Web 客 户 














(浏览 器 ) 、Telnet 客 户 、Web 服 务 器 、FTP 服 务 器 和 其 他 我 们 在 使 用 的 
人 对 于 网 际 协 议 ，OSI 模 型 的 项 上 三 层 协议 几乎 没有 
区 别 。 


本 书 讲 述 的 套 接 字 编程 接口 是 从 项 上 三 层 〈 网 际 协议 的 应 用 层 ) HE 
入 传输 层 的 接口 。 本 书 的 焦点 是 : 如 何 使 用 套 接 字 编写 使 用 TCP 或 UDP 
的 网 络 应 用 程序 。 我 们 已 提 到 原始 套 接 字 ， 在 第 29 章 中 我 们 将 看 到 ， 其 
至 可 以 彻底 经 过 IP 层 直接 读 写 数据 链 路 层 的 帧 。 


为 什么 套 接 字 提供 的 是 从 OSI 模型 的 项 上 三 层 进 入 传输 层 的 接口 ? 
这 样 设 计 有 两 个 理由 ， 如 图 1-14 右 侧 所 注 。 理 由 之 一 是 项 上 三 层 处 理 具 
体 网 络 应 用 〈 如 FTP、Telnet 或 HTTP) 的 所 有 细节 ， 却 对 通信 细节 了 解 
IRD; 底下 四 层 对 有 具体 网 络 应 用 了 解 不 多 ， 却 处 理 所 有 的 通信 细节 : 发 
送 数据 ， 等 竺 确认， 给 无 序 到 达 的 数据 排序 ， 计 算 并 验证 校 验 和 ， 等 
等 。 理 由 之 二 是 顶 上 三 层 通 常 构成 所 谓 的 用 户 进 程 Cuser process) , JX 
下 四 层 却 通 常 作为 操作 系统 内 核 的 一 部 分 提供 。Unix 与 其 他 现代 操作 系 
统 都 提供 分 隔 用 户 进程 与 内 核 的 机 制 。 由 此 可 见 ， 第 4 层 和 第 5 层 之 间 的 
接口 是 构建 API 的 自然 位 置 。 
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1.8 BSD 网 络 支持 历史 


套 接 字 API 起 源 于 1983 年 发 行 的 4.2BSD 操 作 系 统 。 图 1-15 展 示 了 各 
种 BSD 发 行 版 本 的 发 展 史 ， 并 注 明 了 TCP/PP 的 主要 发 展 历程 。1990 年 面 
世 的 4.3BSD Reno 发 行 版 本 随 着 OSI 协议 进入 BSD 内 核 而 对 套 接 字 API 做 
了 少量 的 改动 。 





amd 
DSD Networking Software 
1.0% (19895-) ; Net/l 
pee 
DSD Networking Software 
2.0] (19915) : Net/2 
-a 
4.4BSD Tite (199457) 
正文 十 称 为 Net3 BSD/OS 
| | FreeBSD 


| OpenBSD 
4.4BSD-Lite2 (19954) 


Y | NetBSD 


图 1-15 


42BSD (19834) 
第 一 个 广 江 可 用 的 TCP/IP 
RE APIS 


4.3BSD (1986) 
改 和 车 了 TCP 忻 能 


， 


4.3BSD Tuhoe (1088[-) 
慢 启 动 ， 拥 塞 避 免 
Pe id 


4.3BSD Bena (19907 ) 
REAR. TCP A nb rem. 
SLIP abl He. fud deut 
sockaddr HP SA S SEE. 
msghdr{}! Pugs Dade dz B. 


4.4BSD (199371) 
多 播 ， 长 有 管道 改进 


各 种 BSD 版 本 的 历史 


图 1-15 中 从 4.2BSD 往 下 到 4.4BSD 的 通路 展示 了 源 自 Berkeley 计 算 机 


系统 研究 组 (Computer Systems Research Group, CSRG) 的 各 个 版 本 ， 


它们 要 求 获取 者 已 拥有 Unix 的 源 代码 许可 权 。 然 而 其 中 的 所 有 网 络 支持 
代码 ， 不 论 是 内 核 支持 (如 TCP/IP 协 议 栈 、Unix 域 协议 栈 及 套 接 字 
API) 还 是 应 用 程序 (如 Telnet 和 FTP 客 户 和 服务 器 程序 ) 都 是 独立 于 源 
自 AT&T 的 Unix 代 码 开发 的 。 因 此 从 1989 年 起 ，Berkeley 开 始 提 供 第 一 
个 BSD 网 络 支 持 版 本 ， 它 包含 所 有 的 网 络 支 持 代 码 以 及 不 受 Unix 源 代码 
许可 权 约 束 的 其 他 各 种 BSD 系 统 软 件 。 这 些 包 含 网 络 支 持 代码 的 版 本 是 
可 公开 获取 的 ， 最 终 因 特 网 上 任何 人 都 可 通过 匿名 FTP 获 取 。 


源 自 Berkeley 的 最 终 版 本 是 1994 年 的 4.4BSD-Lite 和 1995 年 的 
4.4BSD-Lite2。 我 们 指出 这 两 个 版 本 是 其 他 多 个 系统 (包括 BSD/OS、 
FreeBSD、NetBSD 和 OpenBSD) 的 基础 ， 这 些 系 统 大 多 数 仍 然 处 于 活 
跃 的 开发 和 完善 之 中 。 有 关 各 种 BSD 版 本 和 各 种 Unix 系 统 历史 的 详情 参 
Jl, [ Mckusick et al.1996 ] 的 第 1 章 。 


许多 Unix 系 统 从 某 个 版 本 的 BSD 网 络 支 持 代码 〈 包 括 套 接 字 API) 
开始 提供 网 络 文 持 ， 我 们 称 这 些 实现 为 源 目 Berkeley 的 实现 〈Berkeley- 
derived implementation) 。 许 多 商业 版 本 的 Unix 是 基于 System — VIO 
4 (System V Release 4, SVR4) 的 ， 其 中 有 一 些 系 统 使 用 源 自 Berkeley 
的 网 络 文 持 代码 〈 如 UnixWare 2.x) ， 其 他 SVR4 系 统 的 网 络 文 持 代码 却 
是 独立 起 源 的 〈 如 Solaris 2.x) 。 我 们 还 要 注意 ，Linux 这 种 流行 的 可 免 
费 获 得 的 Unix 实 现 并 不 适合 归属 源 自 Berkeley 的 系列 ， 因 为 它 的 网 络 文 
持 代码 和 套 接 字 API 都 是 从 头 开 始 开发 的 。 
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1.9 测试 用 网 络 及 主机 


图 1-16 展 示 了 本 书 示例 所 用 的 各 个 网 络 和 主机 。 对 于 每 个 主机 ， 我 
们 都 标 出 了 它 的 操作 系统 和 硬件 类 型 (因为 有 些 操作 系统 可 运行 在 不 止 
一 种 硬件 上 ) 。 各 个 框 内 的 名 字 就 是 出 现在 本 书 中 的 各 个 主机 名 。 
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图 1-16 本 书 示例 所 用 的 网 络 和 主机 


图 1-16 所 示 的 拓扑 适合 本 书 的 例子 ， 不 过 机 器 大 范围 地 散布 在 因 特 
网 上 ， 物 理 拓扑 实际 上 变 得 不 太 重 要 。 事 实 上 虚拟 专用 网 络 Cvirtual 
private network，VPN) 或 安全 shell (secure shell，SSH) 连接 提供 这 些 
机 器 之 间 的 连通 性 ， 而 无 需 顾 及 这 些 主机 的 物理 位 置 。 

图 中 %/24”( 和 /64) 指出 从 地 址 的 最 左 位 开始 用 于 标识 网 络 和 子 网 
的 连续 位 数 。A.4 节 将 说 明 现 今 用 于 指定 子 网 边界 的 hn 记 法 。 


Sun 操 作 系 统 的 真实 名 字 是 SunOS 5.x， 而 不 是 Solaris 2.x， 但 是 大 家 
l cem 实际 上 这 是 操作 系统 和 与 之 捆绑 的 其 他 软件 的 合 
JN o 
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网 络 拓 扑 的 友 现 


图 1-16 展 示 了 本 书 的 全 部 示例 所 用 主机 的 网 络 拓 扑 ， 但 是 为 了 在 你 
目 己 的 网 络 上 运行 这 些 例子 和 完成 习题 ， 你 可 能 需要 了 解 自 己 的 网 络 拓 
扑 。 尺 管 目 前 还 没有 关于 网 络 配 置 和 管理 的 现行 Unix 标 准 ， 但 大 多 数 
Unix 系 统 都 提供 了 可 用 于 发 现 某 些 网 络 细节 的 两 个 基本 命令 : netstat 
和 ifconfig。 通 过 阅读 所 用 系统 上 这 些 命令 的 手册 页 面 坚 ， 你 可 以 获悉 
有 关 它 们 的 输出 信息 的 详情 。 要 留意 的 是 ， 有 些 厂商 把 这 些 命令 存放 在 
诸如 /sbin 或 /usr/sbin 这 样 的 管理 目录 中 ， 而 不 是 通 第 的 /usr/bin 目 
7 而 这 些 管理 目录 可 能 不 在 通 销 的 shell 搜 索 路 径 中 〈 由 PATH 环境 变量 

HE) 。 


(1) netstat ” -i 提供 网 络 接口 的 信息 。 我 们 还 指定 -n 标 志 以 输出 
数值 地 址 ， 而 不 是 试图 把 它们 反问 解析 成 名 字 。 下 面 的 例子 给 出 了 接口 
及 其 名 字 和 统计 信息 : 


linux % netstat -ni 

Kernel Interface table 

Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR -OK TX-ERR -OVR Flg 

etho 1500 049211085 0 0 040540958 0 0 © BMRU 
lo 16436 098613572 0 0 098613572 0 0 © LRU 








其 中 环 回 (loopback) 接口 称 为 bo， 以 太 网 接口 称 为 ethoe。 下 面 的 
例子 给 出 了 文 持 IPv6 的 一 个 主机 的 类 似 信息 : 


freebsd % netstat -ni 


Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll 
hmeO 1500 <Link#1> 08:00:20:a7:68:6b 29100435 35 46561488 0 0 
hmeO 1500 12.106.32/24 12.106.32.254 28746630 - 46617260 - - 


hmeO 1500 fe80:1::a00:20ff :fea7:686b/64 

fe80:1::a00:20ff : fea7:686b 

0 - 0 

hmeO 1500 3ffe:b80:8d:1::1/64 

3ffe:b80:8d:1::1 9 - 9 - - 
hme1 1500 <Link#2> 08:00:20:a7:68:6b 51092 0 31537 0 0 
hme1 1500 fe80:2::a00:20ff:fea7:686b/64 

fe80:2::a00:20ff : fea7:686b 


0 - 90 - 
hme1 1500 192.168.42 192.168.42.1 43584 - 24173 
hmei 1500 3ffe:b80:8d:2::1/64 
3ffe:b80:8d:2::1 78 - 8 - - 
100 16384 <Link#6> 10198 0 10198 0 0 
100 16384 ::1/128 Hare i 10 - 10 - - 


100 16384 fe80:6::1/64 fe80:6::1 9 - 0 


100 16384 127 127.0.0.1 10167 - 10167 - - 
gifO 1280 <Link#8> 6 0 5 0 0 
gifO 1280 3ffe:b80:3:9ad1::2/128 
3ffe:b80:3:9ad1: :2 0 - 0 - - 
gifO 1280 fe80:8::a00:20ff:fea7:686b/64 
fe80:8::a00:20ff:fea7:686b 
0 - 0 - - 





注意 : 为 了 对 齐 输出 字段 ， 我 们 对 较 长 的 代码 行 做 了 回 行 处 理 。 
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(2) netstat ，”-r 展 示 路 由 表 ， 也 是 另 一 种 确定 接口 的 方法 。 我 们 
常 指定 -n 标 志 以 输出 数值 地 址 。 它 还 给 出 默认 路 由 器 的 也 地 址 。 


freebsd % netstat -nr 
Routing tables 





Internet: 

Destination Gateway Flags Refs Use Netif Expire 
default 12.106.32.1 USGC 10 6877 hmeO 
12.106.32/24 link#1 UC 3 0 hmeO 
12.106.32.1 00:b0:8e:92::00 UHLW 9 7 hmed 1187 
12.106.32.253 08:00:20:b8:f7:e0 UHLW 0 1 hmeod 140 
12.106.32.254 08:00:20:a7:68:6b UHLW 0 2 100 
127.0.0.1 127.0.0.1 UH 1 10167 100 
192.168.42 linkz2 UC 2 0 hme1 
192.168.42.1 08:00:20:a7:68:6b UHLW 0 11 100 
192.168.42.2 00:04:ac:17:bf:38 UHLW 2 24108 hme1 210 
Internet6: 

Destination Gateway Flags  Netif Expire 
::/96 saa UGRSC lo0 => 
default 3ffe:b80:3:9ad1::1 UGSc gifo 
Sit iq UH 100 

: :ffff:.0/96 iu UGRSC 100 
3ffe:b80:3:9ad1::1 3ffe:b80:3:9ad1::2 UH gifo 
3ffe:b80:3:9ad1::2 link#8 UHL 100 
3ffe:b80:8d::/48 100 USc 100 
3ffe:b80:8d:1::/64 linkz1 UC hmed 
3ffe:b80:8d:1::1 08:00:20:a7:68:6b UHL 100 
3ffe:b80:8d:2::/64 link#2 UC hme1 
3ffe:b80:8d:2::1 08:00:20:a7:68:6b UHL 100 
3ffe:b80:8d:2:204:acff:fe17:bf38 0:04:ac:17:bf:38 . UHLW hme1 
fe80::/10 Hae UGRSc 100 
fe80: :%hme0/64 link#1 UC hmeO 
fe80::a00:20ff : fea7:686b9?chmeO 08:00:20:a7:68:6b UHL 100 
fe80: :%hme1/64 linkz2 UC hme1 
fe80::a00:20ff : fea7:686b?chme1 08:00:20:a7:68:6b UHL 100 
fe80: :%100/64 fe80: :1%100 Uc 100 
fe80: :1%100 link#6 UHL 100 
fe80: :%gif0/64 links8 UC gifo 
fe80::a00:20ff:fea7:686b9?sgif0 links8 UHL 100 
ff01::/32 rid U 100 
ff02::/16 reL UGRS 100 


FFO2: :%hme0/32 link#1 UC hmeO 


FFO2: :%hme1/32 linkz2 UC hme1 


ff02: :%100/32 vi] UC 100 
ff02::96gif0/32 links8 UC gifo 
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ved cre 有 了 各 个 网 络 接口 的 名 字 ， 执 行 ifconfig 就 可 获得 每 个 接口 的 
详细 信息 。 


linux % ifconfig ethO 

etho Link encap:Ethernet HWaddr 00:C0::06:B0:E1 
inet addr:206.168.112.96 Bcast:206.168.112.127 Mask:255.255.255.128 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:49214397 errors:0 dropped:0 overruns:0 frame:0 
TX packets:40543799 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:100 
RX bytes:1098069974 (1047.2 Mb) TX bytes:3360546472 (3204.8 Mb) 
Interrupt:11 Base address: 0x6000 


该 命令 给 出 了 指定 接口 的 卫 地 址 、 子 网 掩 码 和 广播 地 址 。 其 中 的 
MULTICAST 标 志 通 常 指 明 该 接口 所 在 主机 支持 多 播 。 有 些 ifconfig 的 实现 
还 提供 -a 标志 ， 用 于 输出 所 有 已 配置 接口 的 信息 。 


(4) ” 找 出 本 地 网 络 中 众多 主机 的 JP 地址 的 方法 之 一 是 ， 针 对 从 上 一 
步 找 到 的 本 地 接口 的 广播 地 址 执行 ping 命 令 。 


linux % ping -b 206.168.112.127 

WARNING: pinging broadcast address 

PING 206.168.112.127 (206.168.112.127) from 206.168.112.96 : 56(84) bytes of 
data. 

64 bytes from 206.168.112.96: icmp_seq=0 ttl-255 time=241 usec 

64 bytes from 206.168.112.40: icmp seq-0 ttl-255 time-2.566 msec (DUP!) 
64 bytes from 206.168.112.118: icmp seq-0 ttl-255 time-2.973 msec (DUP!) 
64 bytes from 206.168.112.14: icmp seq-0 ttl-255 time=3.089 msec (DUP!) 
64 bytes from 206.168.112.126: icmp seq-0 ttl-255 time-3.200 msec (DUP!) 
64 bytes from 206.168.112.71: icmp seq-0 ttl-255 time-3.311 msec (DUP!) 
64 bytes from 206.168.112.31: icmp_seq=0 ttl-64 time=3.541 msec (DUP!) 
64 bytes from 206.168.112.7: icmp seq-0 ttl-255 time-3.636 msec (DUP!) 











1.10 Unixb E 


在 编写 本 书 时 ， 最 引 人 注 目的 Unix 标 准 化 活动 是 由 Austin 公 共 标 准 
修订 组 (The Austin Common Standards Revision Group, CSRG) 主持 
的 。 他 们 的 努力 结果 是 涵盖 1 700 多 个 编程 接口 的 约 4 000 页 内 容 的 规范 
[Josey 2002] 。 这 些 规范 既 具 有 IEEE POSIX 名 字 ， 也 具有 开放 团体 的 
技术 标准 (The Open Group's Technical Standard) 名 字 。 其 结果 是 同一 
个 Unix 标 准 有 多 个 名 字 来 指称 : ISO/IEC 9945:2002, IEEE Std 1003.1- 
2001 和 单一 Unix 规 范 第 3 版 (Single Unix Specification Version 3) 都 指 同 
一 个 标准 。 本 书 中 除了 像 本 市 这 样 需要 讨论 各 种 较 早 期 标准 各 自 特 性 的 
章节 外 ， 我 们 简单 地 称 这 个 Unix 标 准 为 POSIX 规 范 (The POSIX 
Specification) . 

















获取 这 个 统一 标准 的 最 简易 方法 是 定购 其 CD-ROM 抄 贝 或 通过 Web 
免费 访问 。 这 两 种 方法 的 起 始点 都 是 http://www.UNIX.org/version3。 
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1.10.1 OSIX 的 背景 


POSIX (可 移植 操作 系统 接口 ) 是 Portable Operating System 
Interface 的 首 字 母 缩写 。 它 并 不 是 单个 标准 ， 而 是 由 电气 与 电子 工程 师 
学 会 (the Institute for Electrical and Electronics Engineers, Inc.) 即 IEEE 开 
发 的 一 系列 标准 。POSIX 标 准 已 被 国际 标准 化 组 织 即 ISO 和 国际 电工 委 
员 会 (the International Electrotechnical Commission) 即 IEC 采 纳 为 国际 
标准 (这 两 个 组 织 合 称 为 ISO/IEC) 。 下 面 是 POSIX 标 准 的 发 展 简 史 。 





e 第 一 个 POSIX 标 准 是 IEEE Std 1003.1-1988 (317 页 ) 。 它 详 述 了 进 
入 类 Unix 内 核 的 C 语 言 接口 ， 涵 盖 了 下 述 领域 : 进程 原 语 
(fork, exec, fa oAIEN aS) 、 进 程 环境 〈 用 户 ID 和 进程 组 ) 、 
文件 与 目录 〈 所 有 IO 函数 ) 、 终 端 W/O、 系 统 数 据 库 (口令 文件 和 
用 户 组 文件 ) 以 及 tar 和 cpio 归 档 格 式 。 


第 一 个 POSIX 标 准 在 1986 年 是 称 为 “I[EEE-IX” 的 试用 版 。POSIX 这 


个 名 字 是 由 Richard Stallman 建 议 使 用 的 。 


第 二 个 POSIX 标 准 是 IEEE Std — 1003.1-1990 (356%) , ， 也 称 为 
ISO/IEC 9945-1: 1990。 从 1988 版 本 到 1990 版 本 只 做 了 少量 的 修改 。 
新 添 的 副标题 为 "Part 1: System Application Program Interface (API) 
[C Language]”， 表 明 本 标准 为 C 语 言 API。 
下 一 个 标准 是 两 卷 本 的 IEEE Std 1003.2-1992 〈 约 1300 页 ) 。 它 的 副 
标题 为 “Part 2: Shell and Utilities”。 这 一 部 分 定义 了 shell (基于 
System V 的 Bourne Shell) 和 大 约 100 个 实用 程序 〈 通 常 从 shell 启 动 
执行 的 程序 ， 如 awk、basename、vi 和 yacc 等 等 ) 。 本 书 称 这 个 标准 
为 POSIX.2。 
再 下 一 个 标准 是 IEEE Std 1003.1b-1993 (590 页 ) ， 先 前 称 为 IEEE 
P1003.4。 这 是 对 1003.1-1990 标 准 的 更 新 ， 添 加 了 由 P1003.4 工 作 组 
开发 的 实时 扩展 。1003.1b-1993 相 比 1990 年 版 标准 新 增 的 条 目 包 
括 : 文件 同步 、 异 步 JO、 信 号 量 、 存 储 管理 (mmap 和 共享 内 
TE) 、 执 行 调度 、 时 钟 与 定时 器 以 及 消息 队列 。 
更 下 一 个 标准 是 IEEE Std 1003.1 1996 年 版 [IEEE 1996] (743 

) ， 也 称 为 ISO/ATEC 9945-1: ”1996， 它 包括 1003.1-1990 (基本 
API) 、1003.1b-1993 (实时 扩展 ) ~ 1003.1c-1995 (pthreads) 和 
1003.1i-1995〈 对 1003.1lb 的 技术 性 修订 ) 。 该 标准 增添 了 3 章 关 于 线 
程 的 内 容 ， 并 另 有 关于 线程 同步 《〈 互 斥 锁 和 条 件 变量 ) 、 线 程 调 度 
和 同步 调度 的 各 节 。 本 书 称 这 个 标准 为 POSIX.1。 该 标准 还 有 一 个 
前 言 ， 其 中 声明 ISO/IEC 9945 由 下 面 3 个 部 分 构成 。 

o Part 1: System API (C language) 一 一 第 1 部 分 : 系统 API (Cis 

言 ) 。 
o Part 2: Shell and utilities 第 2 部 分 : Shell 和 实用 程序 。 
o Part 3: System administration 一 一 第 3 部 分 系统 管理 (正在 开 
发 中 ) 。 
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第 1 部 分 和 第 2 部 分 束 是 我 们 所 说 的 POSIX.1 和 POSIX.2。 


743 页 中 有 超过 四 分 之 一 的 篇 幅 是 一 个 标题 为 “Rationale and 








Notes”《〈 理 由 与 注解 ) 的 附录 。 该 附录 含有 历史 性 信息 和 茶 些 特性 被 加 
入 或 删除 的 理由 。 这 些 理由 通常 跟 正式 标准 一 样 有 教 益 。 


。 Ji — rue EE 20004F HEA RII TEEE Std : Protocol-independent 
interfaces — (PIT)。 在 单一 Unix 规 范 第 3 版 《The Single Unix 
Specification Version 3) 面世 之 前 ， 这 是 与 本 书 涵盖 的 主题 最 为 相 
关 的 POSIX 产 品 。 它 是 联网 API 标 准 ， 它 定义 了 两 个 API， 并 称 它们 
为 详尽 网 络 接口 (Detailed Network Interface, DNI) 。 

o DNISocket， 基 于 4.4BSD 的 套 接 字 API。 
o DNL/XTI， 基 于 X/Open 的 XPG4 规 范 。 


这 个 标准 的 工作 作为 P1003.12 工 作 组 (后 来 改名 为 P1003.1g)〉 起 始 
于 20 世 纪 80 年 代 后 期 。 本 书 称 这 个 标准 为 POSIX.1g。 


关于 各 种 POSIX 标 准 的 当前 状况 可 以 访问 
http://www.pasc.org/standing/sd11.html. 


1.10.2 ”开放 团体 的 背景 


开放 团体 (The Open Group) 是 由 1984 年 成 立 的 X/Open 公司 
(X/Open Company) 和 1988 年 成 立 的 开放 软件 基金 会 (Open Software 
Foundation, OSF) 于 1996 年 合并 成 的 组 织 。 它 是 厂商 、 工 业界 最 终 用 
户 、 政 府 和 学 术 机 构 共 同 参加 的 国际 组 织 。 下 面 是 开放 团体 制定 的 标准 


的 简要 背景 。 

















e X/Open 公司 于 1989 年 出 版 了 X/Open Portability Guide (X/Open 移植 
性 指南 ，XPG) 第 3 期 ， 即 XPG3。 

e XPG 第 4 期 即 XPG4 出 版 于 1992 年 ， 其 第 2 版 出 版 于 1994 年 。 这 个 最 
新 版 本 也 称 为 “Spec 1 ， 其 中 魔 数 1170 是 系统 接口 数 〈926 个 ) 、 头 
文件 数 〈70 个 ) 和 命令 数 〈174 个 ) 的 总 和 。 这 组 规范 的 最 终 名 字 
是 X/Open Single Unix Specification (X/Open 单一 Unix 规 范 ) ， 也 称 
为 “Unix 95。 

e 单一 Unix 规 范 第 2 版 于 1997 年 3 月 发 行 。 符 合 这 个 规范 的 产品 称 
为 “Unix 98”。 本 书 就 称 这 个 规范 为 “Unix 98”. Unix 98 的 接口 数目 
从 1170 个 增长 到 1434 个 ， 而 用 于 工作 站 的 接口 数 则 达到 3 ”030 个 ， 
因为 它 包 含 公共 桌面 环境 (Common Desktop Environment, 
CDE) | WARRE AEX Windows 系 统 和 Motif 用 户 接 口 。 
本 规范 的 详情 参见 http:/www.UNIX.org/version2 和 [Josey 1997] . 
Unix 98 为 套 接 字 API 和 XTI API 定 义 了 网 络 文 持 服务 。 这 个 规范 与 





POSIX.1g 几 乎 相同 。 
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不 洱 的 是 ，X/Open 称 它们 的 网 络 标准 为 XNS: X/Open Networking 
Services。 定 义 Unix 98 套 接 字 和 XTI 的 文档 的 这 一 版 本 称 为 “XNS Issue 
(XNS 第 5 期 。 在 网 络 界 ，XNS 已 是 Xerox Network Systems 体 系 结构 
的 简称 。 所 以 ， 我 们 避免 使 用 XNS， 而 称 这 个 X/Open 文 档 为 Unix 98 网 
络 API 标 准 。 


1.40.3 ”标准 的 统一 


如 本 节 开 头 所 提 ， 伴 随 Austin CSRG 发 布 单一 Unix 规 范 第 3 版 ， 
POSIX 和 开放 团体 都 继续 发 展 ， 达 成 统一 的 标准 。CSRG 促 成 50 多 家 公 
司 就 单一 标准 达成 一 致意 见 ， 这 在 Unix 发 展 史 上 确实 是 一 件 划时代 之 大 
事 。 如 今 大 多 数 Unix 系 统 都 符合 POSIX.1 和 POSIX.2 的 某 个 版 本 ， 不 少 
系统 符合 单一 Unix 规 范 第 3 版 。 


历史 上 多 数 Unix 系 统 或 者 源 自 Berkeley， 或 者 源 自 System V， 不 过 
这 些 差 别 在 慢 慢 消失 ， 因 为 大 多 数 广 商 已 开始 采纳 这 些 标 准 。 然 而 在 系 
统管 理 的 处 理 上 两 者 仍然 存在 较 大 差别 ， 这 个 领域 目前 还 没有 标准 可 
循 。 


本 书 的 焦点 是 单一 Unix 规 范 第 3 版 ， 其 中 义 以 套 接 字 API 为 主 。 只 要 
可 能 ， 我 们 就 使 用 标准 函数 。 


1.10.4 ”因特网 工程 任务 攻坚 组 


因特网 工程 任务 攻坚 组 CInternet Engineering Task Force, IETF) 是 
一 个 由 关心 因特网 体系 结构 的 发 展 及 其 顺利 运作 的 网 络 设 计 者 、 操 作 
BE ae ere eae 它 同 任何 感 兴趣 的 个 

JPG 


因特网 标准 处 理 过 程 在 RFC 2026 [Bradner 1996] 中 说 明 。 因 特 网 
标准 一 般 处 理 协 议 问题 而 不 是 编程 API， 不 过 仍 有 两 个 RFC (REC 
3493 [Gilligan et al. 2003] 和 RFC 3542 [Stevens et al. 2003] ) 说 明了 
IPv6 的 套 接 字 API。 它 们 是 信息 性 的 RFC， 并 不 是 标准 ， 制 定 它们 的 目 














的 是 加 速 部 署 由 多 家 从 事 IPv6 工 作 较 早 的 厂商 所 开发 的 可 移植 网 络 应 用 
程序 。 尽 管 标 准 主体 趋 于 花费 很 长 的 时 间 ， 其 中 许多 API 却 已 经 在 单一 
Unix 规 范 第 3 版 中 标准 化 了 。 


1.11 64 位 体系 结构 


20 世 纪 90 年 代 中 期 到 未 期 开始 出 现 向 64 位 体系 结构 和 64 位 软件 发 展 
的 趋势 。 其 原因 之 一 是 在 每 个 进程 内 部 可 以 由 此 使 用 更 长 的 编 址 长 度 
《 即 64 位 指针 ) ， 从 而 可 以 寻 址 很 大 的 内 存 空间 〈 超 过 232 字 节 ) 。 现 
有 32 位 Unix 系 统 上 共同 的 编程 模型 称 为 ILP32 模 型 ， 表 示 整 数 (1) 、 长 
整数 (L) 和 指针 P) 都 占用 32 位 。64 位 Unix 系 统 上 变 得 最 为 流行 的 模 
型 称 为 LP64 模 型 ， 表 示 只 有 长 整数 COLO 和 指针 CP) 占用 64 位 。 图 1-17 
对 这 两 种 模型 进行 了 比较 。 
































图 1-17 ILP32 和 LP64 模 型 保存 不 同 数据 类 型 所 占用 的 位 数 的 比较 
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从 编程 角度 看 ，LP64 模 型 意味 着 我 们 不 能 假设 一 个 指针 能 存放 在 一 
个 整数 中 。 我 们 还 必须 考虑 LP64 模 型 对 现 有 API 的 影响 。 


ANSI C 创 造 了 size_t 数 据 类 型 ， 它 用 于 作为 malloc 的 唯一 参数 〈 待 
分 配 的 字 节 数 ) ， 或 者 作为 read 和 write 的 第 三 个 参数 〈 待 读 或 写 的 字 
RO) 。 在 32 位 系统 中 size_t 是 一 个 32 位 值 ， 但 是 在 64 位 系统 中 它 必 须 
是 一 个 64 位 值 ， 以 便 发 挥 更 大 寻 址 模型 的 优势 。 这 意味 着 64 位 系统 中 也 
许 含有 一 个 把 size_t 定 义 为 unsigned long 的 typedef 指 令 。 联 网 API 存 在 
如 下 问题 : POSIX 的 某 些 草案 规定 ， 存 放 套 接 字 地 址 结构 大 小 的 函数 参 
数 具 有 size_t 数 据 类 型 (如 bind 和 connect 的 第 三 个 参数 ) 。 某 些 XTI 结 
构 也 含有 数据 类 型 为 long 的 成 员 (如 t_info 和 和 t_opthdr 结 构 ) o 如 果 这 
些 规 定 不 加 修改 ， 当 Unix 系 统 从 ILP32 模 型 转变 为 LP64 模 型 时 ，size_t 
和 1long 都 将 从 32 位 值 变 为 64 位 值 。 这 两 个 例子 实际 上 并 不 需要 使 用 64 位 











的 数据 类 型 : Bee Ha MIN Ries BULA SE, SE XT 
构成 员 使 用 long 数 据 类 型 则 是 个 错误 。 





处 理 这 些 情 况 的 办 法 是 使 用 专门 设计 的 数据 类 型 。 套 接 字 API 对 套 
接 字 地 址 结构 的 长 度 使 用 socklen_t 数 据 类 型 ，XTI 则 使 用 t_scalar t 和 
t_uscalar_t 数 据 类 型 。 不 把 这 些 值 由 32 位 改 为 64 位 的 理由 是 易于 为 那 
re eee 的 64 位 系统 中 的 二 进 制 代码 
容 性 。 


1.12 小结 


图 1-5 展 示 了 一 个 尽管 简单 但 却 完 整 的 TCP 客 户 程 序 ， 它 从 某 个 指定 
的 服务 器 读 取 当前 时 间 和 日 期 ， 而 图 1-9 则 展示 了 其 服务 器 程序 的 一 个 
完整 版 本 。 这 两 个 例子 引入 了 许多 本 书 其 他 部 分 将 要 扩展 的 概念 和 术 


ee 











我 们 的 客户 程序 与 IPv4 协 议 相 关 ， 我 们 于 是 把 它 修改 成 使 用 IPv6， 
但 这 样 做 却 只 是 给 了 我 们 男 外 一 个 协议 相关 的 程序 。 我 们 将 在 第 11 半 中 
开发 一 些 可 用 来 编写 协议 无 关 代码 的 函数 ， 这 在 因特网 开始 使 用 IPv6 后 
会 变 得 非常 重要 。 

纵 贯 本 书 ， 我 们 将 使 用 1.4 节 中 介绍 的 包 囊 函数 来 缩短 代码 ， 同 时 
又 保证 测试 每 个 函数 调用 ， 检 查 是 否 返 回 错 误 。 我 们 的 包 囊 函数 都 以 一 
个 大 写字 母 开 头 。 
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单一 Unix 规 范 第 3 版 有 多 个 名 称 ， 我 们 简单 地 称 之 为 POSIX 规 范 。 
它 是 两 个 长 期 发 展 的 标准 团体 各 目 努 力 的 汇合 ， 由 Austin CSRG 最 终 团 
结 起 来 。 


对 Unix 网 络 文 持 历史 感 兴趣 的 读者 可 参阅 叙述 Unix 历 史 的 [Salus 
1994 ] 和 和 叙述 TCP/IP 及 因特网 历史 的 [Salus 1995] 。 


习题 
Ll ， 按 1.9 节 未 尾 的 步 又 找 出 你 自己 的 网 络 拓扑 的 信息 。 


1.2 ”获取 本 书 示 例 的 源 代码 ( 见 前 言 》， 编 详 并 测试 图 1-5 所 示 的 
TCP 时 间 获 取 客 性 程序。 运行 这 个 程序 寿 干 次 ， 每 次 以 不 同 IP 地 址 作为 
命令 行 参数 。 


13 把 图 1-5 中 的 socket 的 第 一 参数 改 为 9999。 编 译 并 运行 这 个 程 
序 。 结 果 如 何 ? 找 出 对 应 于 所 输出 出 错 的 errno 值 。 你 如 何 可 以 找到 关 
于 这 个 错误 的 更 多 信息 ? 


14 ”修改 图 1-5 中 的 while 循 环 ， 加 入 一 个 计数 占 ， 系 计 read 返 回 大 
oe EAER OL VERUS ES HR EFI AT ORY BT RE 
Te 


15 按 下 述 步 又 修改 图 1-9 中 的 程序 。 首 先 ， 把 赋 于 sin_port 的 端 
口号 从 13 改 为 9999。 然 后 ， 把 write 的 单一 调用 改 为 循环 调用 ， 每 次 写 
出 结果 字符 串 的 一 个 字 节 。 编 译 修改 后 的 服务 器 程序 并 在 后 台 启 动 执 
行 。 接 着 修改 前 一 道 习 题 中 的 客户 程序 〈 它 在 终止 前 输出 计数 器 值 ) ， 
把 赋 于 sin_port 的 端口 号 从 13 改 为 9999。 启 动 这 个 客户 程序 ， 指 定 运 行 
修改 后 的 服务 器 程序 的 主机 的 IP 地 址 作为 命令 行 参 数 。 客 户 程 序 计数 器 
Na 如 果 可 能 ， 在 不 同 主机 上 运行 这 个 客户 与 服务 器 程 
T. 
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QD 本 书 英 文 原文 通 篇 频繁 使 用 client (客户 ) 和 server〈 服 务 器 ) 这 两 个 
术语 。 实 际 上 它们 的 具体 含义 随 上 下 文 而 变化 ， 有 时 指 静 态 的 源 程序 或 
可 执行 程序 (客户 程序 和 服务 器 程序 ) ， 有 时 指 动态 进程 〈 客 户 进程 和 
服务 器 进程 ) ， 有 时 指 运行 进程 的 主机 《客户 主机 和 服务 器 主机 ) . TE 
不 致 引起 混淆 的 前 提 下 ， 我 们 简单 地 称 客户 进 程 为 客户 ， 称 服务 器 进程 
为 服务 器 。 一 一 译 者 注 


应 用 (application〉 这 个 术语 的 具体 含义 随 上 下 文 而 变化 ， 有 时 指 程 


序 《 应 用 程序 ) ， 有 时 指 进程 〈 应 用 进程 ) ， 有 时 作为 名 词性 修饰 词 译 
为 应 用 。 本 书 有 时 把 同 处 应 用 层 的 客户 和 服务 器 对 也 用 应 用 表示 ， 我 们 
称 之 为 应 用 系统 、 网 络 应 用 或 应 用 。 一 一 译 者 注 


G)Unix 系 统 中 程序 (program) 和 进程 (process) 是 在 系统 调用 exec 上 
衔接 的 。exec 既 可 以 由 shell 隐 式 调 用 《直接 输入 命令 行 执行 程序 属于 这 
种 情况 ) ， 也 可 以 在 用 户 程序 中 显 式 调用 。 显 式 exec 调 用 执行 的 程序 在 
本 书 中 称 为 新 程序 ， 以 示 与 exec 调 用 所 在 程序 的 区 别 。exec 调 用 前 后 两 
个 程序 实际 上 在 同一 个 进程 环境 下 执行 ， 不 过 往往 使 用 新 程序 的 名 字 来 
称呼 这 个 进程 。exec 调 用 往往 跟 在 某 个 fork 调 用 之 后 ， 这 样 新 程序 将 在 
新 的 进程 环境 中 执行 。 客 户 程 序 和 迭代 服务 器 程序 运行 时 通常 只 有 一 个 
进程 ， 并 发 服务 器 程序 运行 时 除 主 进 程 外 ， 通 常 还 为 每 个 客户 派生 一 个 
x D ied 不 易 区 分 。 
一 一 详 者 注 


(Qintermnet 一 词 有 多 种 含义 。 一 是 网 际 网 (internet) ， 采 用 TCP/IP 协 议 族 
通信 的 任何 网 络 都 是 网 际 网 ， 因 特 网 就 是 一 个 网 际 网 。 二 是 因特网 
(Internet) ， 它 是 一 个 专用 名 词 ， 特 指 从 ARPANET 发 展 而 来 的 连接 全 
球 各 个 ISP 的 大 型 网 际 网 。 三 是 作为 名 词性 修饰 词 ， 这 时 应 根据 情况 分 
别 译 成 “因特网 >、“ 网 际 网 ”或 “网 际 ”?。 例 如 ， Internet Protocol 译 成 “网 际 
HN” GER: “Internet Protocol” 是 “internet protocol 一 词 名 词 专 用 化 的 
结果 ) ; Internet Society 则 译 成 < 因特网 学 会 ”。 应 注意 区 分 因特网 和 网 
际 网 这 两 个 概念 : 因特网 只 有 一 个 ， 为 了 确保 其 中 任何 一 个 节点 (主机 
或 路 由 器 ) 都 能 寻 址 到 ， 其 寻 址 规则 和 地 址 分 配方 案 是 全 球 统一 的 ; 不 
属于 因特网 的 网 际 网 却 可 以 为 其 中 的 节点 任意 分 配 地 址 ， 壁 如 说 把 因 特 
网 中 的 多 播 地 址 (224.0.0.0/4) 分 配 用 于 单 播 目 的 也 没有 问题 ， 因 为 地 
址 属性 〈 单 播 、 多 播 、 广 播 、 回 馈 、 私 用 等 ) 是 额外 配置 到 TCP/IP 协 议 
族 上 的 ， 并 非 TCP/AP 协 议 族 的 本 质 特 征 ， 尽 管 实际 上 TCP/PP 的 各 个 实现 
几乎 一 律 采 用 因特网 的 寻 址 规则 。 虽 然 国 内 权威 机 构 已 经 为 "Internet” 一 
词 正 过 中 文 名 (因特网 ) ， 许 多 文献 仍然 沿用 “互联 网 ”这 个 不 确切 的 名 
称 。 互 联网 的 说 法 是 相对 内 联网 (intranet) 而 言 的 ， 后 者 特 指使 用 因 特 
网 私 用 地 址 寻 址 各 个 节点 的 网 际 网 ， 因 而 只 是 比较 特殊 的 网 际 网 。 一 一 
译 者 注 

严格 地 说 ，C 语 言 中 用 #define 伪 命令 定义 的 对 象 称 为 常数 ， 用 const 


限定 词 定 义 并 初始 化 的 对 象 称 为 常量 (相对 于 变量 而 言 》》。 和 常数 的 值 在 
编译 时 确定 ， 钊 量 的 值 则 在 运行 时 初始 化 后 确定 《不 过 此 后 只 能 作为 右 









































BEH) 。 本 书 绝 大 多 数 恒定 值 是 用 #define 定 义 的 第 数 。 不 过 “党 
数 ” 这 一 称谓 容易 让 人 狭义 地 理解 成 仅仅 是 数 而 已 ， 因 此 本 书 统一 使 
用 “ 常 值 ” 指 代 其 值 恒定 不 变 的 对 象 。 一 一 译 者 注 


(6)socket 一 词 译 者 认为 译 成 “ 套 接 口 ? 更 为 准确 ， 其 理由 如 下 。 首 先 ， 作 

为 网 络 编程 API 之 一 的 套 接口 〈sockets， 注 意 这 种 用 法 总 是 采用 复数 形 

式 ， 如 sockets API. sockets library 等 ) 跟 XTI 一 样 ， 是 应 用 层 到 传输 层 
或 其 他 协议 层 的 访问 接口 。 其 次 ， 具 体 使 用 的 套 接口 是 与 Unix 管 道 的 某 
一 端 类 似 的 东西 ， 我 们 既 可 以 往 这 个 “ 口 ” 写 数据 ， 也 可 以 从 这 个 “ 口 ? 读 
数据 。 最 后 ， 套 接口 函数 使 用 套 接口 描述 字 Cdiscriptor) 访问 具体 的 套 
接口 ， 如 果 把 套 接口 描述 字 的 简称 sockfd 译 成 “ 套 接 字 ” 倒 比 较 合 适 。 从 

这 个 意义 上 看 ， 一 个 套 接 口 可 对 应 多 个 套 接 字 ， 因 为 Unix 的 描述 字 既 可 
以 复制 ， 也 可 以 继承 ; 反 过 来 ， 一 个 套 接 字 对 应 且 只 对 应 一 个 套 接 口 。 

但 是 ， 鉴 于 现在 socket 广 泛 被 接受 的 译 法 是 “ 套 接 字 ， 所 以 本 书 亦 采用 

了 “ 套 接 字 ”的 译 法 。 相 应 地 ，descriptor 也 采用 了 “描述 符 ” 的 译 法 ， 而 未 
坚持 译 为 “描述 字 ”。 编者 注 


Q@ 为 求 简洁 明确 ， 本 书 以 后 尽量 采用 直接 把 函数 名 或 C 语 言 关 键 词 用 作 
动词 的 译 法 。 例 如 ， 本 人 句 的 这 种 译 法 是 “我 们 read 服 务 器 的 应 答 ， 

并 fputs 结 果 。”， 又 如 :“ 如 果 connect 成 功 ， 那 就 break 出 循环 。” 的 意 
思 是 : “如果 connect 了 水 数 调用 成 功 ( 表 示 连 接 成 功 ) ， 那 就 执行 C 语 言 
的 break 语 句 跳 出 循环 。” 


(B® 计算 机 网 络 各 层 对 等 实体 间 交 换 的 单位 信息 称 为 协议 数据 单元 
(protocol data unit, PDU) ， 分 节 (segment) 就 是 对 应 于 TCP 传 输 层 
的 PDU。 按 照 协 议 与 服务 之 间 的 关系 ， 除 了 最 低层 (物理 层 ) 外 ， 每 层 
的 PDU 通 过 由 紧邻 下 层 提 供给 本 层 的 服务 接口 ， 作 为 下 层 的 服务 数据 单 
元 (service data unit, SDU) 传递 给 下 层 ， 并 由 下 层 间 接 完 成 本 层 的 
PDU 交 换 。 如 果 本 层 的 PDU 大 小 超过 紧邻 下 层 的 最 大 SDU 限 制 ， 那 么 本 
层 还 要 事先 把 PDU 划 分 成 铬 干 个 合适 的 片段 让 下 层 分 开 载 送 ， 再 在 相反 
方 同 把 这 些 片段 重组 成 PDU。 同 一 层 内 SDU 作 为 PDU 的 净 蓓 

(payload) 字段 出 现 ， 因 此 可 以 说 上 层 PDU 由 本 层 PDU (通过 其 SDU 字 
BO) 承载 。 每 层 的 PDU 除 用 于 承载 紧邻 上 层 的 PDU〈 即 承载 数据 〉 外 ， 
也 用 于 承载 本 层 协 议 内 部 通信 所 需 的 控制 信息 。 由 于 本 书 涉及 PDU 种 类 
较 多 ， 为 避免 混淆 ， 我 们 在 本 章 末 六 总 简要 说 明 。 

应 用 层 实体 (如 客户 或 服务 器 进程 》 间 交换 的 PDU 称 为 应 用 数据 
(application data〉， 其 中 在 TCP 应 用 进程 之 间 交 换 的 是 没有 长 度 限制 的 


























单个 双向 字 节 流 ， 在 UDP 应 用 进程 之 间 交 换 的 是 其 长 度 不 超过 UDP 发 送 
缓冲 区 大 小 的 单个 记录 (record) ， 在 SCTP 应 用 进程 之 间 交 换 的 是 没有 
总 长 度 限制 的 单个 或 多 个 双向 记录 流 。 传 输 层 实体 (例如 对 应 某 个 端口 
的 传输 层 协 议 代码 的 一 次 运行 ) 间 交换 的 PDU 称 为 消 丰 (message) ， 
其 中 TCP 的 PDU 特 称 为 分 节 (segment) 。 消 息 或 分 节 的 长 度 是 有 限 的 。 
在 TCP 传 输 层 中 ， 发 送 端 TCP 把 来 自 应 用 进程 的 字 节 流 数 据 ( 即 由 应 用 
进程 通过 一 次 次 输出 操作 写 出 到 发 送 端 TCP 套 接 字 中 的 数据 〉 按 顺序 经 
分 割 后 封装 在 各 个 分 节 中 传送 给 接收 端 TCP， 其 中 每 个 分 节 所 封装 的 数 
据 既 可 能 是 发 送 端 应 用 进程 单 次 输出 操作 的 结果 ， 也 可 能 是 连续 数 次 输 
出 操作 的 结果 ， 而 且 每 个 分 节 所 封装 的 单 次 输出 操作 的 结果 或 者 首尾 两 
次 输出 操作 的 结果 既 可 能 是 完整 的 ， 也 可 能 是 不 完整 的 ， 有 具体 取决 于 可 
在 连接 建立 阶段 由 对 端 通告 的 最 大 分 节 大 小 (maximum segment size, 
MSS) 以 及 外 出 接口 的 最 大 传输 单元 (maximum transmission unit, 
MTU) 或 外 出 路 径 的 路 径 MTU 《〈 如 果 网 络 层 具有 路 径 MTU 发 现 功能 ， 
如 IPv6) 。 分 节 除 了 用 于 承载 应 用 数据 外 ， 也 用 于 建立 连接 (SYNI 
节 ) 、 终 止 连接 (FIN 分 节 ) 、 中 止 连接 (RST 分 节 ) 、 确 认 数 据 接收 
(ACK 分 节 ) 、 刷 送 待 发 数据 (PSH 分 节 ) 和 携带 紧急 数据 指针 CURG 
分 节 ) ， 而 且 这 些 功 能 (包括 承载 数据 〉 可 以 灵活 组 合 。UDP 传 输 层 相 
当 简 单 ， 发 送 端 UDP 就 把 来 自 应 用 进程 的 单个 记录 整个 封装 在 UDP 消 息 
中 传送 给 接收 疹 UDP。SCTP 引 入 了 称 为 块 Cchunk) 的 数据 单元 ， 
SCTP 消 息 就 由 一 个 公共 首部 加 上 一 个 或 多 个 块 构成 : 公共 首部 类 似 
UDP 消息 的 首部 ， 仅 仅 给 出 源 目 的 端口 号 和 整个 SCTP 消 息 的 校 验 和 ; 
块 则 既 可 以 承载 数据 〈 称 为 DATA 块 ) ， 也 可 以 承载 控制 信息 GEE 
SACK 块 、INIT 块 、INIT ACKER. COOKIE ECHO 块 、COOKIE ACK 
块 、SHUTDOWN 块 、SHUTDOWN ACK 块 、SHUTDOWN COMPLETE 
块 、ABORT 块 、ERROR 块 、HEARTBEAT 块 和 HEARTBEAT ACK 块 ， 
总 称 为 控制 块 ) 。 发 送 端 SCTP 把 来 自 应 用 进程 的 〈 一 个 或 多 个 ) 记录 
流 数据 按照 流 内 顺序 和 记录 边界 封装 在 各 个 DATA 块 中 ， 并 在 DATA 块 
首部 记 上 各 自 的 流 D。 一 个 记录 通常 对 应 一 个 DATA 块 ， 对 于 过 长 的 记 
录 ， 发 送 端 SCTP 既 可 以 像 UDP 那 样 拒绝 发 送 ， 也 可 以 把 它们 拆 分 到 多 
个 DATA 块 中 以 便 发 送 ， 接 收 端 SCTP 收 取 后 把 它们 组 合成 单个 记录 上 
传 。 作 为 传输 层 PDU 的 SCTP 消 息 既 可 以 只 包含 单个 块 (DATA 块 或 控制 
块 ) ， 也 可 以 在 接口 MTU 或 路 径 MTU 的 限制 下 包含 多 个 块 〈 称 为 块 的 
WA, IBER, DATARE) ， 不 过 INIT 块 、INIT ACK 块 和 
SHUTDOWN COMPLETE 块 不 能 跟 任何 其 他 块 捆绑 。SCTP 收 发 两 端 均 
独立 处 理 捆绑 在 同一 个 消息 中 的 各 个 块 ， 鉴 于 此 ， 我 们 可 以 直接 把 块 作 
为 传输 层 PDU 看 待 ， 本 书 也 往往 这 么 使 用 。 























网 络 层 实 体 间 交换 的 PDU 称 为 IP 数 据 报 (IP datagram) ， 其 长 度 有 限 : 
IPv4 数 据 报 最 大 65 535 字 节 ，IPv6 数 据 报 最 大 65 575 字 节 。 人 发 送 端 卫 把 来 
自传 输 层 的 消息 〈 或 TCP 分 节 ) 整个 封装 在 IP 数 据 报 中 传送 。 链 路 层 实 
体 间 交换 的 PDU 称 为 帧 (frame) ， 其 长 度 取 决 于 具体 的 接口 。IP 数 据 
报 由 IP 首 部 和 所 承载 的 传输 层 数据 ( 即 网 络 层 的 SDU) 构成 。 过 长 的 IP 
数据 报 无 法 封装 在 单个 帧 中 ， 需 要 先 对 其 SDU 进 行 分 片 
(fragmentation) ， 再 把 分 成 的 各 个 片段 (fragment) 冠 以 新 的 卫 首 部 封 
装 到 多 个 帧 中 。 在 一 个 卫 数 据 报 从 源 端 到 目的 端的 传送 过 程 中 ， 分 片 操 
作 既 可 能 发 生 在 源 端 ， 也 可 能 发 生 在 途中 ， 而 其 逆 操 作 即 重组 
(reassembly) 一 般 只 发 生 在 目的 端 ，SCTP 为 了 传送 过 长 的 记录 采取 了 
类 似 的 分 片 和 重组 措施 。TCP/IP 协 议 族 为 提高 效率 会 尽 可 能 避免 IP 的 分 
片 /重组 操作 : TCP 根 据 MSS 和 MTU 限 定 每 个 分 节 的 大 小 以 及 SCTP 根 据 
MTU 分 片 /重组 过 长 记录 都 是 这 个 目的 〈SCTP 的 块 捆绑 则 是 为 了 在 避免 
IP 分 片 /重组 操作 的 前 提 下 提高 块 传输 效率 ) ; 另外，IPv6 人 禁止 在 途中 的 
分 片 操作 (基于 其 路 径 MTU 发 现 功 能 ) ，IPv4 也 尽量 避免 这 种 操作 。 不 
论 是 否 分 片 ， 都 由 IP 作 为 链 路 层 的 SDU 传 入 链 路 层 ， 并 由 链 路 层 封装 在 
帧 中 的 数据 称 为 分 组 (packet， 俗 称 包 ) 。 可 见 一 个 分 组 既 可 能 是 一 个 
完整 的 也 数据 报 ， 也 可 能 是 某 个 卫 数 据 报 的 SDU 的 一 个 片段 被 冠 以 新 的 
IP 首 部 后 的 结果 。 另 外 ， 本 书 中 讨论 的 MSS 是 应 用 层 (TCP) 与 传输 层 
之 间 的 接口 属性 ，MTU 则 是 网 络 层 和 链 路 层 之 间 的 接口 属性 。 

上 述 讨论 参见 RFC 1122. RFC 793. RFC 768, RFC 3286, RFC 2960 和 
本 书 2.11 节 、7.9 节 。 另 外 需 注 意 的 是 ，SCTP 目 前 只 是 处 于 提案 标准 
(proposed standard) 阶段 ， 尚 未 进入 能 够 被 多 数 广 商 采 纳 并 实现 的 章 
案 标 准 Cdraft standard) 阶段 ， 更 没有 像 TCP 和 UDP 那样 历经 考验 而 成 
为 因特网 标准 〈 分 配 STD 号 ) 。 一 一 译 者 注 


G 手 册页 面 (manual ” page 或 man page) 是 所 有 Unix 系 统 都 提供 的 使 
用 man 命 令 查 看 到 的 有 关 命 令 、 函 数 和 文件 等 的 帮助 信息 。 某 个 条 目的 
手册 页 面 就 是 以 该 条 目 为 命令 行 参 数 执行 han 的 输出 。 译 者 注 


(0 这 里 被 认可 标准 (approved standard) 意思 是 成 为 正式 标准 前 的 特定 
阶段 。 一 一 译 者 注 
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2.1 概述 


本 章 提 供 本 书 示例 所 用 TCP/IP 协 议 的 概貌 。 我 们 的 目的 是 从 网 络 编 
程 角度 提供 足够 的 细节 以 理解 如 何 使 用 这 些 协议 ， 同 时 提供 有 关 这 些 协 
议 的 实际 设计 、 实 现 及 历史 的 具体 描述 的 参考 点 。 


本 章 的 焦点 是 传输 层 ， 包 括 TCP、UDP 和 SCTP (Stream Control 
Transmission Protocol， 流 控制 传输 协议 ) 。 绝 大 多 数 客户 /服务 器 网 络 
应 用 使 用 TCP 或 UDP。SCTP 是 一 个 较 新 的 协议 ， 最 初 设 计 用 于 跨 因 特 
网 传输 电话 信 令 。 这 些 传输 协议 都 转 而 使 用 网 络 层 协议 IP: 或 是 IPv4， 
或 是 IPvV6。 尽 管 可 以 绕 过 传输 层 直 接 使 用 IPv4 或 IPv6， 但 这 种 技术 往 
往 称 为 原始 套 接 字 ) 却 极 少 使 用 。 因 此 ， 我 们 把 IPv4 和 IPv6 以 及 
ICMPv4 和 ICMPv6 的 详细 描述 安排 在 附录 A 中 。 


UDP 是 一 个 简单 的 、 不 可 靠 的 数据 报 协 议 ， 而 TCP 是 一 个 复杂 、 可 
靠 的 字 节 流 协 议 。SCTP 与 TCP 类 似 之 处 在 于 它 也 是 一 个 可 靠 的 传输 协 
WX, (HEME AWA. (eR Sie Cnultihoming) 文 持 以 及 将 头 
‘ig SHE Chead-of-line blocking) 减少 到 最 小 的 一 种 方法 。 我 们 必须 了 解 
由 这 些 传输 层 协 议 提 供给 应 用 进程 的 服务 ， 这 样 才 能 弄 清 这 些 协议 处 理 
什么 ， 应 用 进程 中 又 需要 处 理 什 么 。 


TCP 的 某 些 特性 一 旦 理解 ， 就 很 容易 编写 健壮 的 客户 和 服务 器 程 
序 ， 也 很 容易 使 用 诸如 netstat 等 普 志 可 用 的 工具 来 调试 客户 和 服务 器 
程序 。 本 章 将 阐述 以 下 相关 主题 ，TCP 的 三 路 握手 、TCP 的 连接 终止 序 
列 和 TCP 的 TIME_WAIT 状 态 ，SCTP 的 四 路 握手 和 SCTP 的 连接 终止 ， 加 
上 由 套 接 字 层 提供 的 TCP、UDP 和 SCTP 组 冲 机 制 ， 等 等 。 
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22 AB 


虽然 协议 族 被 称 为 *TCP/IP”， 但 除了 TCP 和 了 P 这 两 个 主要 协议 外 ， 
还 有 许多 其 他 成 员 。 图 2-1 展 示 了 这 些 协议 的 概况 。 
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图 2-1 ”TCP/IP 协 议 概 况 


图 2-1 中 同时 展示 了 IPv4 和 IPv6。 从 右 癌 左 查 看 该 图 ， 最 右边 的 5 个 
网 络 应 用 在 使 用 IPv6; 我 们 将 在 第 3 章 中 随 sockaddr_in6 结 构 讲解 
AF_INET6 常 值 。 随 后 的 6 个 网 络 应 用 使 用 IPvV4。 


最 左边 名 为 tcpdump 的 网 络 应 用 或 者 使 用 BSD 分 组 过 滤器 (BSD 
packet filter, BPF) ， 或 者 使 用 数据 链 路 提供 E 接口 (datalink provider 
interface, DLPI) 直接 与 数据 链 路 进行 通信 。 处 于 其 右边 所 有 9 个 应 用 
下 面 的 虚线 标记 为 API， 它 通 E DT. 


口 不 使 用 套 接 字 或 XTI。 
这 种 情况 存在 一 个 例外 : Linux 使 用 一 种 称 为 Sock_PACKET 的 特殊 套 








p 类 型 提供 对 于 数据 链 路 的 访问 。 我 们 将 在 第 28 章 中 详细 讲述 这 个 例 


图 2-1 中 还 标明 traceroute 程 序 使 用 两 种 套 接 字 : IP 套 接 字 用 于 访问 
IP，ICMP 套 接 字 用 于 访问 ICMP。 在 第 28 章 中 ， 我 们 将 开发 ping 和 
traceroute 这 两 个 应 用 的 IPv4 和 IPv6 版 本 。 


下 面 我 们 讲解 一 下 图 2-1 中 的 每 一 个 协议 框 。 


IPv4 网 际 协议 版 本 4 (Internet Protocol version 4) 。IPv4 (通常 
称 之 为 了 了 ) 上 自 20 世 纪 80 年 代 早 期 以 来 一 直 是 网 际 协 议 族 的 主力 协 dX. E 
使 用 32 位 地 址 〈 见 A.4 节 ) 。IPv4 给 TCP、UDP、SCTP、ICMP 和 IGMP 
提供 分 组 递送 服务 。 


Pv6 网 际 协议 版 本 6 (nternet Protocol version 6) 。IPv6 是 在 20 世 
纪 90 年 代 中 期 作为 IPv4 的 一 个 殖 代 品 设计 的 。 其 主要 变化 是 使 用 128 位 
更 大 地 址 ( 见 A.5 节 〉 以 应 对 20 世 纪 90 年 代 因 特 网 的 爆发 性 增长 。IPv6 
给 TCP、UDP、SCTP 和 ICMPv6 提 供 分 组 递送 服务 。 


当 无 需 区 别 IPv4 和 IPv6 时 ， 我 们 经 常 把 “IP"” 一 词 作 为 形容 词 使 用 ， 
如 IP 层 、 耳 地址 等 。 


TCP 传输 控制 协议 (Transmission Control Protocol) 。TCP 是 一 个 
面 癌 连接 的 协议 ， 为 用 户 进程 提供 可 靠 的 全 双 工 字 节 流 。TCP 套 接 字 是 
一 种 流 套 接 字 (stream socket) 。TCP 关 心 确 认 、 超 时 和 重 传 之 类 的 细 
节 。 大 多 数 因特网 应 用 程序 使 用 TCP。 注 意 ，TCP 既 可 以 使 用 IPv4， 也 
可 以 使 用 IPv6。 


UDP 用 户 数 据 报 协议 (User Datagram Protocol) 。UDP 是 一 个 无 
连接 协议 。UDP 套 接 字 是 一 种 数据 报 套 接 字 (datagram socket) > UDP 
数据 报 不 能 保证 最 终 到 达 它 们 的 目的 地 。 与 TCP 一 样 ，UDP 既 可 以 使 用 
IPv4， 也 可 以 使 用 IPv6。 








SCTP 流 控制 传输 协议 (Stream Control Transmission Protocol) 。 
ccm cu Le hs 议 ， 我 们 使 用 “ 关 
pe a 次 SCTP 中 的 连接 ， 因 为 SCTP 是 多 宿 的 ， 从 而 每 个 关联 的 
两 端 均 涉 一 组 下 地 址 和 一 个 端 口号 。SCTP 提 供 消 息 服 务 ， 也 就 是 维 
护 来 层 的 记录 边界 。 与 TCP 和 UDP 一 样 ，SCTP 既 可 以 使 用 IPv4， 


也 可 以 使 用 IPv6， 而 且 能 够 在 同一 个 关联 中 同时 使 用 它们 。 


ICMP 网 际 控制 消息 协议 (Internet Control Message Protocol) 。 
ICMP 处 理 在 路 由 器 和 主机 之 间 流 通 的 错误 和 控制 消息 。 这 些 消 息 通 名 
由 TCP/P 网 络 文 持 软件 本 号 《而 不 是 用 尸 进 程 ) 产生 和 处 理 ， 不 过 图 中 
展示 的 ping 和 traceroute 程 序 同样 使 用 ICMP。 有 时 我 们 称 这 个 协议 为 
ICMPv4， 以 便 与 ICMPv6 相 区 别 。 


IGMP 网 际 组 管理 协议 (Internet Group Management Protocol) 。 
IGMP 用 于 多 播 〈 见 第 21 半 ) ， 它 在 IPv4 中 是 可 选 的 。 
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ARP 地 址 解析 协议 (Address Resolution Protocol) 。ARP 把 一 个 
IPv4 地 址 映射 成 一 个 硬件 地 址 (如 以 太 网 地 址 ) 。ARP 通 常用 于 诸如 以 
太 网 、 令 牌 环 网 和 EDDI 等 广播 网 络 ， 在 点 到 点 网 络 上 并 不 需要 。 


RARP fla) Hub AA HT Pi (Reverse Address Resolution 
Protocol) 。RARP 把 一 个 硬件 地 址 映射 成 一 个 IPv4 地 址 。 它 有 时 用 于 无 
盘 节 点 的 引导 。 


ICMPv6 网 际 控制 消息 协议 版 本 6 (Internet Control ^ Message 
Protocol version 6) 。ICMPv6 综 合 了 ICMPv4、IGMP 和 ARP 的 功能 。 


BPF BSD 分 组 过 滤器 (BSD packet filter) 。 该 接口 提供 对 于 数据 
链 路 层 的 访问 能 力 ， 通 党 可 以 在 源 自 Berkeley 的 内 核 中 找到 。 


DLPI 数据 链 路 提供 者 接口 〈datalink provider interface) 。 该 接口 
也 提供 对 于 数据 链 路 层 的 访问 能 力 ， 通 常 随 SVR4 内 核 提 供 。 


所 有 网 际 协议 由 一 个 或 多 个 称 为 请 求 评注 〈Request for 
Comments, RFC) 的 文档 定义 ， 这 些 RFC 就 是 它们 的 正式 规范 。 习 题 
2.1 的 答案 说 明 如 何 获 得 这 些 RFC。 


我 们 使 用 术语 “IPv4/IPv6 主 机 ?或 “ 双 栈 主机 ”表示 同时 支持 IPv4 和 
IPv6 的 主机 。 








TCP/IP 协 议 的 其 他 细节 参见 TCPv1。TCP/IP 在 4.4BSD 上 的 实现 参见 
TCPv2. 


2.3 ”用户 数 据 报 协 议 CUDP) 


UDP 是 一 个 简单 的 传输 层 协议 ， 在 RFC 768 [Postel 1980] 中 有 详 
细 说 明 。 应 用 进程 往 一 个 UDP 套 接 字 写 入 一 个 消息 ， 该 消息 随后 被 封装 
Cencapsulating ) 到 一 个 UDP 数据 报 ， 该 UDP 数据 报 进 而 又 被 封装 到 一 
个 IP 数 据 报 ， 然 后 发 送 到 目的 地 。UDP 不 保证 UDP 数据 报 会 到 达 其 最 终 
目的 地 ， 不 保证 各 个 数据 报 的 先后 顺序 路 网 络 后 保持 不 变 ， 也 不 保证 每 
个 数据 报 只 到 达 一 次 。 


我 们 使 用 UDP 进行 网 络 编程 所 遇 到 的 问题 是 它 缺 乏 可 靠 性 。 如 果 一 
个 数据 报到 达 了 其 最 终 目的 地 ， 但 是 校 验 和 检测 发 现 有 错误 ， 或 者 该 数 
据 报 在 网 络 传 输 途 中 个 丢 弃 了 ， 它 就 无 法 被 投递 给 UDP 僚 接 字 ， 也 不 会 
被 源 端 日 动 重 传 。 如 果 想 要 确保 一 个 数据 报到 达 其 目的 地 ， 可 以 往 应 用 
程序 中 添置 一 大 堆 的 特性 : 来 自 对 端的 确认 、 本 端的 超时 与 重 传 等 。 


每 个 UDP 数据 报 都 有 一 个 长 度 。 如 果 一 个 数据 报 正 确 地 到 达 其 目的 
地 ， 那 么 该 数据 报 的 长 度 将 随 数据 一 道 传递 给 接收 端 应 用 进程 。 我 们 已 
经 提 到 过 TCP 是 一 个 字 节 流 Cbyte-stream) 协议 ， 没 有 任何 记录 边界 
〈 见 1.2 节 ) ， 这 一 点 不 同 于 UDP。 


我 们 也 说 UDP 提供 无 连接 的 〈connectionless) 服务 ， 因 为 UDP 客户 
与 服务 喜之 间 不 必 存 在 任何 长 期 的 关系 。 举 例 来 说 ， 一 个 UDP 客户 可 以 
创建 一 个 套 接 字 并 发 送 一 个 数据 报 给 一 个 给 定 的 服务 器 ， 然 后 立即 用 同 
一 个 套 接 字 发 送 另 一 个 数据 报 给 另 一 个 服务 右 。 同 样 地 ， 一 个 UDP 服务 
EU DL TUBES, 同 的 客户 接收 数据 报 ， 每 个 客户 
Me ; 
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2.4 传输 控制 协议 CTCP) 


由 TCP 问 应 用 进程 提供 的 服务 不 同 于 由 UDP 提供 的 服务 。TCP 在 
RFC 793 [Postel ] 中 有 详细 说 明 ， 然 后 由 RFC 1323 [ Jacobson, Braden, 
and Borman 1992] . RFC 2581 [ Allman, Paxson, and Stevens 1999] 、 
RFC 2988 [Paxson and Allman 2000] 4IRFC 3390 [ Allman, Floyd, and 
Partridge 2002] 加 以 更 新 。 首 先 ，TCP 提 供 客户 与 服务 器 之 间 的 连接 

(connection) 。TCP 客 户 先 与 某 个 给 定 服务 器 建立 一 个 连接 ， 再 跨 该 
连接 与 那个 服务 器 交换 数据 ， 然 后 终止 这 个 连接 。 


其 次 ，TCP 还 提供 了 可 靠 性 (reliability) 。 当 TCP 向 另 一 端 发 送 数 
据 时 ， 它 要 求 对 端 返 回 一 个 确认 。 如 果 没 有 收 到 确认 ，TCP 就 自动 重 传 
数据 并 等 待 更 长 时 间 。 在 数 次 重 传 失败 后 ，TCP 才 放弃 ， 如 此 在 尝试 发 
送 数 据 上 所 花 的 总 时 间 一 般 为 4 一 10 分 钟 〈 依 赖 于 具体 实现 ) 。 


注意 ，ICP 并 不 保证 数据 一 定 会 被 对 方 端 操 接收， 因为 这 是 不 可 能 
做 到 的 。 如 果 有 可 能 ，TCP 惑 把 数据 递送 到 对 方 端 点 ， 否 则 就 《通过 放 
弃 重 传 并 中 断 连 接 这 一 手段 ) 通知 用 户 。 这 么 说 来 ，TCP 也 不 能 被 描述 
0 它 提供 的 是 数据 的 可 靠 递 送 或 故障 的 可 徘 通 
He 


TCP 含 有 用 于 动态 估算 客户 和 服务 器 之 间 的 往返 时 间 Cround-trip 
time, RTT) 的 算法 ， 以 便 它 知道 等 竺 一 个 确认 需要 多 少时 间 。 举 例 来 
说 ，RIT 在 一 个 局 域 网 上 大 约 是 几 坚 秒 ， 路 越 一 个 广域网 则 可 能 是 数秒 
钟 。 另 外 ， 因 为 RTT 受 网 络 流通 各 种 变化 因素 影响 ，TCP 还 持续 估算 一 
个 给 定 连接 的 RIT。 


TCP 通 过 给 其 中 每 个 字 节 关联 一 个 序列 号 对 所 发 送 的 数据 进行 排序 
(sequencing) 。 举 例 来 说 ， 假 设 一 个 应 用 写 2048 字 到 一 个 TCP 套 接 
字 ， 导 致 TCP 发 送 2 个 分 节 : 第 一 个 分 节 所 含 数 据 的 序列 号 为 1 一 1024， 
第 二 个 分 节 所 含 数据 的 序列 号 为 1025~~2048。 (分 节 是 TCP 传 递 给 IP 的 
数据 单元 。) 如 果 这 些 分 节 非 顺序 到 达 ， 接 收 端 TCP 将 先 根据 它们 的 序 
列 号 重新 排序 ， 再 把 结果 数据 传递 给 接收 应 用 。 如 果 接 收 端 TCP 接 收 到 
来 自 对 端的 重复 数据 〈 璧 如 说 对 端 认 为 一 个 分 节 已 丢失 并 因此 重 传 ， 而 
这 个 分 节 并 没有 真正 丢失 ， 只 是 网 络 通信 过 于 拥挤 ) ， 它 可 以 (根据 序 




















WS) 判定 数据 是 重复 的 ， 从 而 丢弃 重复 数据 。 


UDP 不 提供 可 靠 性 。UDP 本 身 不 提供 确认 、 序 列 写 、RTT 估 算 、 超 
时 和 重 传 等 机 制 。 如 果 一 个 UDP 数 据 报 在 网 络 中 被 复制 ， 两 份 副本 就 可 
能 都 递送 到 接收 端的 主机 。 同 样 地 ， 如 果 一 个 UDP 客户 发 送 两 个 数据 报 
到 同一 个 目的 地 ， 它 们 可 能 被 网 络 重新 排序 ， 颠 倒 顺 序 后 到 达 目 的 地 。 
UDP 应 用 必须 处 理 所 有 这 些 情 况 ， 在 22.5 节 中 我 们 将 展示 如 何 处 理 。 
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再 次 ，TCP 提 供 流 量 控制 Clow control) 。TCP 总 是 告知 对 端 在 任 
何 时 刻 它 一 次 能 够 从 对 端 接收 多 少 字 节 的 数据 ， 这 称 为 通告 窗口 
(advertised window) 。 在 任何 时 刻 ， 该 窗口 指出 接收 缓冲 区 中 当前 可 
用 的 空间 量 ， 从 而 确保 发 送 端 发 送 的 数据 不 会 使 接收 缓冲 区 溢出 。 该 窗 
口 时 刻 动态 变化 ， 当 接收 到 来 自发 送 端 的 数据 时 ， 窗 口 大 小 就 减 小 ， 但 
是 当 接 收 端 应 用 从 绥 冲 区 中 读 取 数据 时 ， 窗 口 大 小 就 增 大 。 通 告 窗口 大 
小 减 小 到 0 是 有 可 能 的 ， 当 TCP 对 应 某 个 套 接 字 的 接收 缓冲 区 已 满 ， 导 
致 它 必 须 等 竺 应 用 从 该 缓冲 区 读 取 数据 时 ， 方 能 从 对 端 再 接收 数据 。 


UDP 不 提供 流量 控制 。 如 我 们 将 在 8.13 节 所 示 ， 让 较 快 的 UDP 发 送 
端 以 一 个 UDP 接收 端 难以 跟 上 的 速率 发 送 数据 报 是 非常 容易 的 。 


最 后 ，TCP 连 接 是 全 双 工 的 Cfull-duplex) 。 这 意味 着 在 一 个 给 定 
的 连接 上 应 用 可 以 在 任何 时 刻 在 进出 两 个 方向 上 既 发 送 数据 又 接收 数 
据 。 因 此 ，TCP 必 须 为 每 个 数据 流 方 向 跟踪 诸如 序列 号 和 通告 窗口 大 小 
等 状态 信息 。 建 立 一 个 全 双 工 连接 后 ， 需 要 的 话 可 以 把 它 转换 成 一 个 单 
TE W667) 。 


UDP 可 以 是 全 双 工 的 。 




















2.5 流 控 制 传输 协议 CSCTP) 


SCTP 提 供 的 服务 与 UDP 和 TCP 提 供 的 类 似 。SCTP 在 RFC 

2960 [Stewart et al. 2000] 中 详细 说 明 ， 并 由 RFC 3309 [ Stone, Stewart, 
and Otis 2002] 加 以 更 新 。RFC 3286 [Ong and Yoakum 2002] 给 出 了 
SCTP 的 简要 介绍 。SCTP 在 客户 和 服务 器 之 间 提 供 关 联 

(association) ， 并 像 TCP 那 样 给 应 用 提供 可 靠 性 、 排 序 、 流 量 控制 以 
及 全 双 工 的 数据 传送 。SCTP 中 使 用 "关联 ”一 词 取代 “连接 ”是 为 了 避免 
这 样 的 内 涵 : 一 个 连接 只 涉及 两 个 IP 地 址 之 间 的 通信 。 一 个 关联 指 代 两 
人 


与 TCP 不 同 的 是 ，SCTP 是 面 问 消息 的 (message-oriented) 。 它 提 
供 各 个 记录 的 按 序 递送 服务 。 与 UDP 一 样 ， 由 发 送 端 写 入 的 每 条 记录 的 
长 度 随 数据 一 道 传递 给 接收 端 应 用 。 


SCTP 能 够 在 所 连接 的 问 点 之 间 提 供 多 个 流 ， 每 个 流 各 上 自 可 靠 地 按 
序 递送 消息 。 一 个 流 上 某 个 消息 的 丢失 不 会 阻塞 同一 关联 其 他 流 上 消 乱 
的 投递 。 这 种 做 法 与 TICP 正 好 相反 ， 就 TCP 而 言 ， 在 单一 字 节 流 中 任何 
a 直到 该 丢失 被 


SCTP 还 提供 多 箱 特 性 ， 使 得 单个 SCTP 端 点 能 够 文 持 多 个 IP 地 址 。 
该 特性 可 以 增强 应 对 网 络 故障 的 健壮 性 。 一 个 端点 可 能 有 多 个 元 余 的 网 
络 连接 ， 每 个 网 络 勾 可 能 有 各 和 目 接 入 因特网 基础 设施 的 连接 。 当 该 端点 
与 男 一 个 端点 建 并 一 个 关联 后 ， 如 果 它 的 某 个 网 络 或 菜 个 蜂 越 因特网 的 
通路 发 生 故 障 ，SCTP 就 可 以 通过 切换 到 使 用 已 与 该 关联 相关 的 另 一 个 
地 址 来 规避 所 发 生 的 故障 。 
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类 似 的 健壮 性 在 路 由 协议 的 辅助 下 也 可 以 从 TCP 中 获得 。 举 例 来 
说 ， 由 启 GP 实 现 的 同一 域内 的 BGP 连 接 往往 把 赋予 路 由 器 内 茶 个 虚拟 接 
口 的 多 个 地 址 用 作 TCP 连 接 的 端点 。 该 域 的 路 由 协议 确保 两 个 路 由 器 之 
间 只 要 存在 一 条 路 由 ， 该 路 由 就 会 被 用 上 ， 从 而 保证 这 两 个 路 由 器 之 间 


的 BGP 连 接 可 用 ; 要 是 使 用 属于 茶 个 物理 接口 的 地 址 来 建 六 BGP 连 接 ， 
该 物理 接口 又 变 得 不 工作 了 ， 这 一 点 就 不 可 能 做 到 。SCTP 的 多 宿 特性 
允许 主机 (而 不 仅仅 是 路 由 器 〉 也 多 宿 ， 而 且 允 许多 窒 跨 越 不 同 的 服务 
供应 商 发 生 ， 这 些 基于 路 由 的 TCP 多 宿 方法 都 无 法 做 到 。 


2.6 TCP fe ÆA IE 


为 帮助 大 家 理解 connect、accept 和 close 这 3 个 函数 并 使 用 netstat 
程序 调试 TCP 应 用 ， 我 们 必须 了 解 TCP 连 接 如 何 建立 和 终止 ， 并 掌握 
TCP 的 状态 转换 图 。 


2.6.1 三 路 握手 
建立 一 个 TCP 连 接 时 会 发 生 下 述 情形 。 


C1) 服务 器 必须 准备 好 接受 外 来 的 连接 。 这 通常 通过 调 
用 socket、bind 和 1listen 这 3 个 函数 来 完成 ， 我 们 称 之 为 被 动 打开 


(passive open) . 


(2) 客户 通过 调用 connect 发 起 主动 打开 (active open) 。 这 导致 
客户 TCP 发 送 一 个 SYN (同步 ) 分 节 ， 它 告诉 服务 器 客户 将 在 〈 待 建立 
的 ) 连接 中 发 送 的 数据 的 初始 序列 号 。 通 常 SYN 分 节 不 携带 数据 ， 其 所 
在 IP 数 据 报 只 含有 一 个 PP 首部、 一 个 TCP 首 部 及 可 能 有 的 TCP 选 项 (我 
们 稍 后 讲解 ) 。 

(3) 服务 器 必须 确认 CACK) 客户 的 SYN， 同 时 自己 也 得 发 送 一 
个 SYN 分 节 ， 它 含有 服务 器 将 在 同一 连接 中 发 送 的 数据 的 初始 序列 号 。 
服务 器 在 单个 分 节 中 发 送 SYN 和 对 客户 SYN 的 ACK (MAA) 。 

(4) 客户 必须 确认 服务 器 的 SYN。 


这 种 交换 至 少 需要 3 个 分 组 ， 因 此 称 之 为 TCP 的 三 路 握手 Cthree- 
way handshake) 。 图 2-2 展 示 了 所 交换 的 3 个 分 节 。 





客户 服务 器 


| socket,bind, listen 
ko 


sus inp [被动 打 开 ) 
connect (AW) SYN 
mE RE cce ( j TE 
(主动 打开 》 a are 
SYN K, ACK PT 一 一 
connect ii |] _ ACK Ka] accept ik [4] 
ME reed ER) 


图 2-2 ”TCP 的 三 路 握手 
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图 2-2 给 出 的 客户 的 初始 序列 号 为 J， 服 务 器 的 初始 序列 号 为 K。 
ACK 中 的 确认 号 是 发 送 这 个 ACK 的 一 端 所 期 待 的 下 一 个 序列 号 。 因 为 
SYN 占 据 一 个 字 节 的 序列 号 空间 ， 所 以 每 一 个 SYN 的 ACK 中 的 确认 号 整 
是 该 SYN 的 初始 序列 号 加 1。 类 似 地 ， 每 一 个 FIN (表示 结束 )〉 的 ACK 
中 的 确认 号 为 该 FIN 的 序列 号 加 1。 


建立 TCP 连 接 就 好 比 一 个 电话 系统 [Nemeth 1997] > socket K žre 
同 于 有 电话 可 用 。bind 函 数 是 在 告诉 别人 你 的 电话 号 码 ， 这 样 他 们 可 以 
呼叫 你 。1Listen 函 数 是 打开 电话 振 铃 ， 这 样 当 有 一 个 外 来 呼叫 到 达 时 ， 
你 就 可 以 昕 到 。connect 函 数 要 求 我 们 知道 对 方 的 电话 号 码 并 拨打 
它 。accept 函 数 发 生 在 被 呼叫 的 人 应 答 电 话 之 时 。 由 accept 返 回 客户 的 
标识 ( 即 客户 的 IP 地 址 和 端口 号) 类 似 于 让 电话 机 的 呼叫 者 ID 功能 部 件 
显示 呼叫 者 的 电话 号 码 。 然 而 两 者 的 不 同 之 处 在 于 accept 只 在 连接 建立 
之 后 返回 客户 的 标识 ， 而 呼叫 者 ID 功能 部 件 却 在 我 们 选择 应 答 或 不 应 答 
电话 之 前 显示 呼叫 者 的 电话 号 码 。 如 果 使 用 域名 系统 DNS〈 见 第 11 
章 ) ， 它 就 提供 了 一 种 类 似 于 电话 禾 的 服务 。getaddrinfo 类 似 于 在 电 
话 夭 中 查找 菜 个 人 的 电话 号 码 ，getnameinfo 则 类 似 于 有 一 本 按照 电话 
写 码 而 不 是 按照 用 户 名 排序 的 电话 竹 。 


2.6.2 TCP 


每 一 个 SYN 可 以 含有 多 个 TCP 选 项 。 下 面 是 常用 的 TCP 选 项 。 





e MSS. /RXSSYNWITCP — m fs H] A126 OBI T XP m E A ee Kd 


大 小 (maximum segment size) 即 MSS， 也 就 是 它 在 本 连接 的 每 个 
TCP 分 节 中 愿意 接受 的 最 大 数据 量 。 发 送 端 TCP 使 用 接收 端的 MSS 
值 作为 所 发 送 分 节 的 最 大 大 小 。 我 们 将 在 7.9 节 看 到 如 何 使 

用 TcP_MAXSEG 套 接 字 选项 提取 和 设置 这 个 TCP 选 项 。 

窗口 规模 选项 。TCP 连 接任 何 一 端 能 够 通告 对 端的 最 大 窗口 大 小 是 
65535， 因 为 在 TCP 首 部 中 相应 的 字段 占 16 位 。 然 而 当今 因特网 上 
业已 普及 的 高 速 网 络 连接 (45 Mbit/s 或 更 快 ， 如 RFC 
1323 [Jacobson, Braden, and Borman 1992] 所 述 ) 或 长 延迟 路 径 
(卫星 链 路 ) 要 求 有 更 大 的 窗口 以 获得 尽 可 能 大 的 吞吐 量 。 这 个 新 
选项 指定 TCP 首 部 中 的 通告 窗口 必须 扩大 〈 即 左 移 ) 的 位 数 (0 一 
14) ， 因 此 所 提供 的 最 大 窗口 接近 1 ”GB (65535x214) 。 在 一 个 
TCP 连 接 上 使 用 窗口 规模 的 前 提 是 它 的 两 个 端 系统 必须 都 支持 这 个 
ee 
TCP 选 项 。 


为 提供 与 不 文 持 这 个 选项 的 较 早 实现 间 的 互 操作 性 ， 需 应 用 如 下 规 
则 。TCP 可 以 作为 主动 打开 的 部 分 内容 随 它 的 SYN 有 发 送 该 选项 ， 但 是 只 
在 对 端 也 随 它 的 SYN 发 送 该 选项 的 前 担 下 ， 筷 才能 扩大 自己 窗口 的 规 
模 。 类 似 地 ， 服 务 器 的 TCP 只 有 接收 到 随 客户 的 SYN 到 达 的 该 选项 时 ， 
才能 发 送 该 选项 。 本 逻辑 假定 实现 忽略 它们 不 理解 的 选项 ， 如 此 忽略 是 
必需 的 要 求 ， 也 已 普 衣 满足 ， 但 无 法 保证 所 有 实现 都 满足 此 要 求 。 
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e 时 间 惟 选项 。 这 个 选项 对 于 高 速 网 络 连接 是 必要 的 ， 它 可 以 防止 由 
失 而 复 现 的 分 组 吕 可 能 造成 的 数据 损坏 。 它 是 一 个 较 新 的 选项 ， 也 
以 类 似 于 窗口 规模 选项 的 方式 协商 处 理 。 作 为 网 络 编程 人 员 ， 我 们 
无 需 考虑 这 个 选项 。 


TCP 的 大 多 数 实现 都 支持 这 些 和 常用 选项 。 后 两 个 选项 有 时 称 为 “RFC 
1323 选 项 *， 因 为 它们 是 在 RFC 1323 [Jacobson, Braden, and Borman 
1992] 中 说 明 的 。 既 然 高 带宽 或 长 延迟 的 网 络 被 称 为 “长 胖 管 道 ”(long 
fat pipe) ， 这 两 个 选项 也 称 为 “长 胖 管 道 选项 *。TCPv1 的 第 24 章 对 这 些 
选项 有 详细 的 叙述 。 


2.6.3 TCP 连接 终止 








TCP 建 立 一 个 连接 需 3 个 分 节 ， 终 止 一 个 连接 则 需 4 个 分 节 。 


(1) 某 个 应 用 进程 首先 调用 close， 我 们 称 该 端 执行 主动 关闭 
(active close) 。 该 端的 TCP 于 是 发 送 一 个 FIN 分 节 ， 表 示 数 据 发 送 完 
Ps 





(2) 接收 到 这 个 FIN 的 对 端 执 行 被 动 关 闭 〈passive close) 。 这 个 
FIN 由 TCP 确 认 。 它 的 接收 也 作为 一 个 文件 结束 人 符 (end-of-file〉 传 递 给 
接收 端 应 用 进程 〈 放 在 已 排队 等 候 该 应 用 进程 接收 的 任何 其 他 数据 之 
人 

可 接收 。 


(3) 一 段 时 间 后 ， 接 收 到 这 个 文件 结束 符 的 应 用 进程 将 调用 close 
关闭 它 的 套 接 字 。 这 导致 它 的 TCP 也 发 送 一 个 FIN。 


(4) 接收 这 个 最 终 FIN 的 原 发 送 端 TCP〈 即 执行 主动 关闭 的 那 一 
Sit) 确认 这 个 FIN。 


既然 每 个 方向 都 需要 一 个 FIN 和 一 个 ACK， 因 此 通常 需要 4 个 分 
节 。 我 们 使 用 限定 词 “通常 * 是 因为 : 某 些 情形 下 步 又 1 的 FIN 随 数据 一 起 
发 送 ; 另外， 步骤 2 和 步骤 3 发 送 的 分 节 都 出 自 执 行 被 动 关闭 那 一 端 ， 有 
可 能 被 合并 成 一 个 分 节 。 图 2-3 展 示 了 这 些 分 组 。 





























(被 动 关 闭 》 
readix [ulO 





图 2-3 TCP 连接 关闭 时 的 分 组 交换 





类 似 SYN， 一 个 FIN 也 占据 1 个 字 节 的 序列 号 空间 。 因 此 ， 每 个 FIN 
的 ACK 确 认 瑟 就 是 这 个 FIN 的 序列 号 加 1。 


在 步骤 2 与 步骤 3 之 加 ， 从 执行 被 动 关 闭 一 端 到 执行 主动 关闭 一 端 流 
动 数据 是 可 能 的 。 这 称 为 半 关 闭 (half-close) ， 我 们 将 在 6.6 节 随 
shutdown 函 数 再 详细 介绍 。 


当 套 接 字 被 关闭 时 ， 其 所 在 端 TCP 各 自发 送 了 一 个 FIN。 我 们 在 图 
中 指出 ， 这 是 由 应 用 进程 调用 close 而 发 生 的 ， 不 过 需 认 识 到 ， 当 一 个 
Unix 进 程 无 论 自愿 地 (调用 exit 或 从 main 函 数 返 回 ) 还 是 非 目 愿 地 《〈 收 
到 一 个 终止 本 进程 的 信和 号) 终止 时 ， 所 有 打开 的 描述 符 都 被 天 闭 ， 这 也 
导致 仍然 打开 的 任何 TCP 连 接 上 也 发 出 一 个 FIN。 


图 2-3 展 示 了 客户 执行 主动 关闭 的 情形 ， 不 过 我 们 指出 ， 无 论 是 客 
户 还 是 服务 器 ， 任 何 一 端 都 可 以 执行 主动 关闭 。 通 常情 况 是 客户 执行 主 
动 关 闭 ， 但 是 某 些 协议 〈 璧 如 值得 注意 的 HITP/1.0) 却 由 服务 器 执行 主 
动 关闭 。 
2.6.4 TCP 状态 转换 图 


TCP 涉 及 连接 建立 和 连接 终止 的 操作 可 以 用 状态 转换 图 (state 
transition diagram) 来 说 明 ， 如 图 2-4 所 示 。 
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图 2-4 ”TCP 状态 转换 图 


TCP 为 一 个 连接 定义 了 11 种 状态 ， 并 且 TCP 规 则 规定 如 何 基于 当前 
状态 及 在 该 状态 下 所 接收 的 分 节 从 一 个 状态 转换 到 男 一 个 状态 。 举 例 来 
说 ， 当 某 个 应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，TCP 将 发 送 一 
个 SYN， 且 新 的 状态 是 SYN_SENT。 如 果 这 个 TCP 接 着 接收 到 一 个 带 


ACK 的 SYN， 它 将 发 送 一 个 ACK， 且 新 的 状态 是 ESTABLISHED。 这 个 
最 终 状 态 是 绝 大 多 数 数据 传送 发 生 的 状态 。 


和 目 ESTABLISHED 状 态 引 出 的 两 个 箭头 处 理 连 接 的 终止 。 如 果 某 个 
应 用 进程 在 接收 到 一 个 FIN 之 前 调用 close (主动 关闭 ) ， 那 就 转换 到 
FIN_WAIT_1 状 态 。 但 如 果 某 个 应 用 进程 在 ESTABLISHED 状 态 期 间接 
收 到 一 个 FIN 〈 被 动 关闭 ) ， 那 就 转换 到 CLOSE_WAIT 状 态 。 


我 们 用 粗 实 线 表 示 通 常 的 客户 状态 转换 ， 用 粗 虚 线 表示 通常 的 服务 
器 状态 转换 。 图 中 还 注 明 存在 两 个 我 们 未 曾 讨论 的 转换 ， 一 个 为 同时 打 
Jf (simultaneous open) ， 发 生 在 两 端 几 乎 同时 发 送 SYN 并 且 这 两 个 
SYN 在 网 络 中 交错 的 情形 下 ， 男 一 个 为 同时 关闭 (simultaneous 
close) ， 发 生 在 两 端 几乎 同时 发 送 FIN 的 情形 下 。TCPv1 的 第 18 章 中 有 
这 两 种 情况 的 例子 和 讨论 ， 它 们 是 可 能 发 生 的 ， 不 过 非常 罕见 。 





39 一 40 
展示 状态 转换 图 的 原因 之 一 是 给 出 11 种 TCP 状 态 的 名 称 。 这 些 状态 
可 使 用 netstat 显 示 ， 它 是 一 个 在 调试 客户 /服务 器 应 用 时 很 有 用 的 工 
具 。 我 们 将 在 第 5 章 中 使 用 netstat 去 监视 状态 的 变化 。 
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2.6.5 ”观察 分 组 
图 2-5 展 示 一 个 完整 的 TCP 连 接 所 发 生 的 实际 分 组 交换 情况 ， 包 括 连 


接 建 六 、 数 据 传送 和 连接 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 
的 TCP 状 态 。 
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图 2-5” TCP 连接 的 分 组 交换 


本 例 中 的 客户 通告 一 个 值 为 536 的 MSS (表明 该 客户 只 实现 了 最 小 
重组 缓冲 区 大 小 ) ， 服 务 器 通告 一 个 值 为 1460 的 MSS 〈 以 太 网 上 IPv4 的 
典型 值 ) 。 不 同方 向 上 MSS 值 不 相同 不 成 问题 (见习 题 2.5) 。 


一 旦 建立 一 个 连接 ， 客 户 就 构造 一 个 请 求 并 发 送 给 服务 器 。 这 里 我 
们 假设 该 请 求 适合 于 单个 TCP 分 节 《〈 即 请 求 大 小 小 于 服务 器 通告 的 值 为 
1460 字 节 的 MSS) 。 服 务 器 处 理 该 请 求 并 发 送 一 个 应 答 ， 我 们 假设 该 应 
答 也 适合 于 单个 分 节 (本 例 即 小 于 536 字 节 ) 。 图 中 使 用 粗 箭头 表示 这 
两 个 数据 分 节 。 注 意 ， 服 务 器 对 客户 请 求 的 确认 是 伴随 其 应 答 发 送 的 。 
这 种 做 法 称 为 朱 带 “piggybacking) ， 它 通常 在 服务 器 处 理 请 求 并 产生 
应 答 的 时 间 少 于 200 ms 时 发 生 。 如 果 服 务 器 耗 用 更 长 时 间 ， 璧 如 说 1 s， 
那么 我 们 将 看 到 先是 确认 后 是 应 答 。 (TCP 数 据 流 机 理 在 TCPv1 的 第 19 
章 和 第 20 章 中 详细 叙述 。) 
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图 中 随后 展示 的 是 终止 连接 的 4 个 分 节 。 注 意 ， 执 行 主 动 关闭 的 那 
一 端 〈 本 例子 中 为 客户 ) 进入 我 们 将 在 下 一 节 中 讨论 的 TIME_WAIT 状 


7G o 


图 2-5 中 值得 注意 的 是 ， 如 果 该 连接 的 整个 目的 仅仅 是 发 送 一 个 单 
分 节 了 的 请 求 和 接收 一 个 单 分 节 的 应 答 ， 那 么 使 用 TCP 有 8 个 分 市 的 开 
销 。 如 末 改 用 UDP， 那 么 只 需 交 换 两 个 分 组 :一 个 承载 请 求 ， 一 个 承载 
应 答 。 然 而 从 TCP 切 换 到 UDP 将 丧失 TCP 提 供给 应 用 进程 的 全 部 可 靠 
性 ， 迫 使 可 靠 服务 的 一 大 扒 细 节 从 传输 层 〈TCP) 转移 到 UDP 应 用 进 
程 。TCP 提 供 的 另 一 个 重要 特性 即 拥 寨 控制 也 必须 由 UDP 应 用 进程 来 处 
理 。 尽 管 如 此 ， 我 们 仍然 需要 知道 许多 网 络 应 用 是 使 用 UDP 构建 的 ， 因 
人 





2.7 TIME WAITIKA 


时 无 疑问 ，TCP 中 有 关 网 络 编程 最 不 容易 理解 的 是 它 的 
TIME_WAIT 状 态 。 在 图 2-4 中 我 们 看 到 执行 主动 关闭 的 那 问 经历 了 这 个 
状态 。 访 端点 停留 在 这 个 状态 的 持续 时 间 是 最 长 分 节 生 命 期 (maximum 
segment lifetime, MSL) 的 两 倍 ， 有 时 候 称 之 为 2MSL 。 














任何 TCP 实 现 都 必须 为 MSL 选 择 一 个 值 。RFC 1122 [Braden 1989 | 
的 建议 值 是 2 分 钟 ， 不 过 源 自 Berkeley 的 实现 传统 上 改 用 30 秒 这 个 值 。 这 
意味 着 TIME_WAIT 状 态 的 持续 时 间 在 1 分 钟 到 4 分 钟 之 间 。MSL 是 任何 
IP 数 据 报 能 够 在 因特网 中 存活 的 最 长 时 间 。 我 们 知道 这 个 时 间 是 有 限 
的 ， 因 为 每 个 数据 报 含有 一 个 称 为 跳 限 Chop limit) 的 8 位 字段 〈 见 图 A- 
1 中 IPv4 的 TIL 字段 和 图 A-2 中 IPv6 的 跳 限 字 7 段 ，， 它 的 最 大 值 为 255。 尺 
管 这 是 一 个 跳 数 限制 而 不 是 真正 的 时 间 限 制 ， 我 们 仍然 假设 具有 最 大 
BEER (2550 的 分 组 在 网 络 中 存在 的 时 间 不 可 能 超过 MSL 秒 。 


分 组 在 网 络 中 “迷途 ”通常 是 路 由 寞 弟 的 结果 。 某 个 路 由 器 月 尝 或 某 
两 个 路 由 器 之 间 的 某 个 链 路 断 开 时 ， 路 由 协议 需 花 数秒 钟 到 数 分 钟 的 时 
间 才 能 稳定 并 找 出 另 一 条 通路 。 在 这 段 时 间 内 有 可 能 发 生路 由 循环 〈 路 
由 器 A 把 分 组 发 送 给 路 由 器 B， 而 B 青 把 它们 发 送 回 A〉， 我 们 关心 的 分 
组 可 能 就 此 陷入 这 样 的 循环 。 假 设 迷 途 的 分 组 是 一 个 TCP 分 他， 在 它 迷 
途 期 间 ， 发 送 端 TCP 超 时 并 重 传 该 分 组 ， 而 重 传 的 分 组 却 通过 某 条 候选 
路 径 到 达 最 终 目 的 地 。 然 而 不 久 后 《〈 自 迷途 的 分 组 开始 其 旅程 起 最 多 
MSL 秒 以 内 ) 路 由 循环 修复 ， 早 先 迷 失 在 这 个 循环 中 的 分 组 最 终 也 被 送 
到 目的 地 。 这 个 原来 的 分 组 称 为 迷途 的 重复 分 组 Aost duplicate) 或 漫 
游 的 重复 分 组 (wandering duplicate)。TCP 必 须 正确 处 理 这 些 重复 的 分 
组 


= 
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TIME_WAIT 状 态 有 两 个 存在 的 理由 : 

(1) 可 靠 地 实现 TCP 全 双 工 连接 的 终止 ; 
(2) 允许 老 的 重复 分 节 在 网 络 中 消逝 。 





第 一 个 理由 可 以 通过 查看 图 2-5 并 假设 最 终 的 ACK 和 技 失 了 来 解释 。 
服务 器 将 重新 发 送 它 的 最 终 那 个 FIN， 因 此 客户 必须 维护 状态 信息 ， 以 
允许 它 重 新 发 送 最 终 那 个 ACK。 要 是 客户 不 维护 状态 信息 ， 它 将 响应 以 
一 个 RST〔( 男 外 一 种 类 型 的 TCP 分 节 ) ， 该 分 节 将 被 服务 器 解释 成 一 个 
错误 。 如 果 TCP 打 算 执 行 所 有 必要 的 工作 以 彻底 终止 某 个 连接 上 两 个 方 
向 的 数据 流 〈 即 全 双 工 关闭 ) ， 那 么 它 必 须 正 确 处 理 连 接 终止 序列 4 个 
分 节 中 任何 一 个 分 节 丢 失 的 情况 。 本 例子 也 说 明了 为 什么 执行 主动 关闭 
的 那 一 端 是 处 于 TIME_WAIT 状 态 的 那 一 端 : 因为 可 能 不 得 不 重 传 最 终 
那个 ACK 的 就 是 那 一 端 。 


为 理解 存在 TIME_WAIT 状 态 的 第 二 个 理由 ， 我 们 假设 在 
12.106.32.254 的 1500 端 口 和 206.168.112.219 的 21 端 口 之 间 有 一 个 TICP 连 
接 。 我 们 关闭 这 个 连接 ， 过 一 段 时 间 后 在 相同 的 耳 地 址 和 端口 之 间 建 立 
男 一 个 连接 。 后 一 个 连接 称 为 前 一 个 连接 的 化 身 (incarnation) ， 因 为 
它们 的 耳 地 址 和 端口 号 都 相同 。TCP 必 须 防 止 来 自 某 个 连接 的 老 的 重复 
分 组 在 该 连接 已 终止 后 再 现 ， 从 而 被 误解 成 属于 同一 连接 的 某 个 新 的 化 
身 。 为 做 到 这 一 点 ，TCP 将 不 给 处 于 TIME_WAIT 状 态 的 连接 发 起 新 的 
化 身 。 既 然 TTME_WAIT 状 态 的 持续 时 间 是 MSL 的 2 倍 ， 这 就 足以 让 某 个 
方向 上 的 分 组 最 多 存活 MSL 秒 即 被 丢弃 ， 另 一 个 方向 上 的 应 答 最 多 存活 
MSL 秒 也 被 丢弃 。 通 过 实施 这 个 规则 ， 我 们 就 能 保证 每 成 功 建立 一 个 
TCP 连 接 时 ， 来 自 该 连接 先前 化 身 的 老 的 重复 分 组 都 已 在 网 络 中 消逝 
Te 


这 个 规则 存在 一 个 例外 : 如 果 到 达 的 SYN 的 序列 号 大 于 前 一 化 身 的 
结束 序列 号 ， 源 自 Berkeley 的 实现 将 给 当前 处 于 TIME_WAIT 状 态 的 连接 
启动 新 的 化 身 。TCPv2 第 958 一 959 页 对 这 种 情况 有 详细 的 叙述 。 它 要 求 
服务 器 执行 主动 关闭 ， 因 为 接收 下 一 个 SYN 的 那 一 端 必须 处 于 
TIME_WAIT 状 态 。rsh 命 令 具 备 这 种 能 力 。RFC 1185 [Jacobson, 
Braden, and Zhang 1990] 讲述 了 有 关 这 种 情形 的 一 些 陷阱 。 




















2.8 SCTP 关 联 的 建立 和 终止 


与 TCP 一 样 ，SCTP 也 是 面向 连接 的 ， 因 而 也 有 关联 的 建立 与 终止 
的 握手 过 程 。 不 过 SCTP 的 握手 过 程 不 同 于 TCP， 我 们 在 此 加 以 说 明 。 
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2.8.1 四 路 握手 
建立 一 个 SCTP 关 联 的 时 候 会 发 生 下 述 情 形 (类 似 于 TCP) 。 


(1) 服务 器 必须 准备 好 接受 外 来 的 关联 。 这 通常 通过 调 
用 socket、bind 和 1listen 这 3 个 函数 来 完成 ， 称 为 被 动 打开 。 


(2) 客户 通过 调用 connect 或 者 发 送 一 个 隐 式 打开 该 关联 的 消息 进 
行 主 动 打开 。 这 使 得 客户 SCTP 发 送 一 个 INIT 消 息 〈 初 始 化 ) ， 该 消息 
告诉 服务 器 客户 的 人 P 地 址 清单 、 初 始 序 列 写 、 用 于 标识 本 关联 中 所 有 分 
MC 
MH. 


(3) 服务 器 以 一 个 INIT ACK 消 息 确认 客户 的 INIT 消 息 ， 其 中 含有 
服务 器 的 耳 地 址 清单 、 初 始 序列 号 、 起 始 标 记 、 服 务 器 请 求 的 外 出 流 的 
数目 、 服 务 器 能 够 支持 的 外 来 流 的 数目 以 及 一 个 状态 cookie。 状 态 
cookie 包 含 服务 器 用 于 确信 本 关联 有 效 所 需 的 所 有 状态 ， 它 是 数字 化 签 
名 过 的 ， 以 确保 其 有 效 性 。 


(4) 客户 以 一 个 COOKIE ECHO 消 息 回 射 服务 器 的 状态 cookie。 除 
COOKIE ECHO 外 ， 该 消息 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数 据 。 


(5) 服务 器 以 一 个 COOKIE ACK 消 息 确认 客户 回 射 的 cookie 是 正 
确 的 ， 本 关联 于 是 建立 。 该 消息 也 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数 
据 。 








以 上 交换 过 程 至 少 需要 4 个 分 组 ， 因 此 称 之 为 SCTP 的 四 路 握手 
(four-way handshake) 。 图 2-6 展 示 了 这 4 个 分 节 。 





= n 服务 器 

| socket, bird, Listen 
‘波动 打 于 ) 

conaect(HH3E)|—— — ..— INIT (75) accept (HAE) 


(主动 打开 ?》 


Socket 


a | 
Ta INIT ACK (Tz.K,cookie Ci "| 


—— —2: COOKIE ECHO c 
| accept if 8| 
Ta COOKIE ACK 一 一 一 reac (fiat) 


E i 


connec LEIA] 


图 2-6 SCTP 的 四 路 握手 
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SCTP 的 四 路 握手 在 很 多 方面 类 似 于 TCP 的 三 路 握手 ， 差 别 主 要 在 
于 作为 SCTP 整 体 一 部 分 的 cookie 的 生成 。INIT 随 其 众多 参数 一 道 ) 承 
载 一 个 验证 标记 Ta 和 一 个 初始 序列 号 J]。 在 关联 的 有 效 期 内 ， 验 证 标记 
Ta 必须 在 对 端 发 送 的 每 个 分 组 中 出 现 。 初 始 序 列 号 J 用 作 承 载 用 户 数据 
的 DATA 块 的 起 始 序 列 写 。 对 端 也 在 INIT ACK 中 承载 一 个 验证 标记 Tz， 
在 关联 的 有 效 期 内 ， 验 证 标记 Tz 也 必须 在 其 发 送 的 每 个 分 组 中 出 现 。 除 
了 验证 标记 Tz 和 初始 序列 号 K 外 ，INIT 的 接收 端 还 在 作为 响应 的 INIT 
ACK 中 提供 一 个 cookie C。 该 cookie 包 含 设置 本 SCTP 关 联 所 震 的 所 有 状 
态 ， 这 样 服务 器 的 SCTP 栈 就 不 必 保存 所 关联 客户 的 有 关 信 息 。SCTP 关 
联 设 置 的 细节 参见 [Stewart and Xie 2001] 的 第 4 章 。 


四 路 握手 过 程 结束 时 ， 两 端 各 自选 择 一 个 主 目的 地 址 (primary 
destination address) 。 当 不 存在 网 络 故障 时 ， 主 目的 地 址 将 用 作 数 据 要 
发 送 到 的 默认 目的 地 。 


— 四 路 握手 是 为 了 避免 一 种 将 在 4.5 节 讨论 的 拒绝 服务 
攻击 。 


SCTP 使 用 cookie 的 四 路 握手 定形 了 一 种 防护 这 种 攻击 的 方法 。TCP 
的 许多 实现 也 使 用 类 似 的 方法 。 两 者 的 主要 差别 在 于 ，TCP 中 cookie 状 
态 必须 编码 到 只 有 32 位 长 的 初始 序列 号 中 。SCTP 为 此 提供 了 一 个 任意 
长 度 的 字段 ， 并 且 要 求实 施 基 于 加 密 的 安全 性 以 防护 攻击 。 








2.8.2 ”关联 终止 


SCTP 不 像 TCP 那 样 多 许 “ 半 关闭 ”的 关联 。 当 一 端 关闭 茶 个 关联 时 ， 
Fy Sit WS ZOU LE BIE TS KKK AT is CY Be Wit AIS FE AREA 
的 数据 (如 果 有 的 话 ) 后 ， 完 成 关联 的 关闭 。 图 2-7 展 示 了 这 一 交换 过 


程 。 











客户 ARSS Be 
close SHUTDO WN 
(主动 关闭 ) — (被 动 关闭 ) 
road 返回 0 


SHUTDOWN COMPLETE 





图 2-7 SCTP 关 联 关闭 时 的 分 组 交换 


SCTP 没 有 类 似 于 TCP 的 TIME_WAIT 状 态 ， 因 为 SCTP 使 用 了 验证 标 
记 。 所 有 后 续 块 都 在 捆绑 它们 的 SCTP 分 组 的 公共 首部 标记 了 初始 的 
INIT 块 和 INIT ACK 块 中 作为 起 始 标 记 交 换 的 验证 标记 ; 由 来 自 旧 连接 
的 块 通过 所 在 SCTP 分 组 的 公共 首部 间接 携带 的 验证 标记 对 于 新 连接 来 
说 是 不 正确 的 。 因 此 ，SCTP 通 过 放置 验证 标记 值 就 避免 了 了 TCP 在 
TIME_WAIT 状 态 保持 整个 连接 的 做 法 。 
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2.83 SCTP 状 态 转换 图 


SCTP 涉 及 关联 建立 和 关联 终止 的 操作 可 以 用 状态 转换 图 〈state 
transition diagram) 来 说 明 ， 如 图 2-8 所 示 。 
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图 2-8 SCTP 状 态 转换 图 


与 图 2-4 一 样 ， 本 状态 机 中 从 一 个 状态 到 另 一 个 状态 的 转换 由 SCTP 
规则 基于 当前 状态 及 在 该 状态 下 所 接收 的 块 规定 。 举 例 来 说 ， 当 某 个 应 
用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，SCTP 将 发 送 一 个 INIT， 且 


新 的 状态 是 COOKIE-WAIT。 如 果 这 个 SCTP 接 着 接收 到 一 个 INIT 
ACK， 它 将 发 送 一 个 COOKIE ECHO， 且 新 的 状态 是 COOKIE- 
ECHOED。 如 果 该 SCTP 随 后 接收 到 一 个 COOKIE ”ACK， 它 将 转换 成 
ESTABLISHED 状 态 。 这 个 最 终 状 态 是 绝 大 多 数 数据 传送 发 生 点 的 状 
态 ， 尽 管 DATA 块 也 可 以 由 COOKIE ECHO 块 或 COOKIE ACK 块 所 在 消 
Seis Sickie 
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从 ESTABLISHED 状 态 引 出 的 两 个 第 头 处 理 关 联 的 终止 。 如 果菜 个 
应 用 进程 在 接收 到 一 个 SHUTDOWN 之 前 调用 close (主动 关闭 ) ， 那 就 
转换 到 SHUTDOWN-PENDING 状 态 。 否 则 ， 如 果 某 个 应 用 进程 在 
ESTABLISHED 状 态 期 间接 收 到 一 个 SHUTDOWN (被 动 关 闭 ) ， 那 就 
转换 到 SHUTDOWN-RECEIVED 状 态 。 


2.8.4 观察 分 组 


图 2-9 展 示 一 个 作为 样 例 的 SCTP 关 联 所 发 生 的 实际 分 组 交换 情况 ， 
包括 关联 建立 、 数 据 传送 和 关联 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 
所 历经 的 SCTP 状 态 。 
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图 2-9 SCTP 关 联 中 的 分 组 交换 


本 例 中 ， 客 户 在 COOKIE ”ECHO 块 所 在 分 组 中 撒 带 了 它 的 第 一 
DATA 块 ， 服 务 器 则 在 作为 应 答 的 COOKIE ACK 块 所 在 J 
据 。 一 般 而 言 ， 当 网 络 应 用 采用 一 到 多 接口 式样 时 
讨论 一 到 一 和 一 到 多 这 两 种 接口 式样 ) ，COOKIE ECHO 通 常 撒 带 一 个 
或 多 个 DATA 块 。 


SCTP 分 组 中 信息 的 单位 称 为 块 (chunk) 。 块 是 自 描述 的 ， 包 含 一 
个 块 类 型 、 和 若干 个 块 标 记 和 一 个 块 长 度 。 这 样 做 方便 了 多 个 块 的 绑 缚 ， 
只 要 把 它们 人 简单 地 组 合 到 一 个 SCTP 外 出 消息 中 〈 [Stewart and Xie 
2001] 的 第 5 章 给 出 了 块 捆绑 和 和 帝 规 数据 传输 过 程 的 细节 ) 。 
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2.8.5 SCTP 选 项 


SCTP 使 用 参数 和 块 方便 增设 可 选 特性 。 新 的 特性 通过 添加 这 两 个 
条 上 日 之 一 加 以 定义 ， 并 允许 通常 的 SCTP 处 理 规则 汇报 未 知 的 参数 和 未 
知 的 块 。 参 数 类 型 字段 和 块 类 型 字段 的 高 两 位 指明 SCTP 接 收 端 该 如 何 
处 置 未 知 的 参数 或 未 知 的 块 〈 [Stewart and Xie 2001] 的 3.1 节 给 出 了 更 
多 的 细节 ) 。 


当前 如 下 两 个 对 SCTP 的 扩展 正在 开发 中 。 


OD 动态 地 址 扩展 ， 多 许 协 作 的 SCTP 端 点 从 已 有 的 某 个 关联 中 动 
态 增删 了 了 地 址 。 


(2) 不 完全 可 靠 性 扩展 ， 人 允许 协作 的 SCTP 靖 点 在 应 用 进程 的 指导 
下 限制 数据 的 重 传 。 当 一 个 消 妃 变 得 过 于 陈旧 而 无 须 用 送 时 《按照 应 用 
进程 的 指导 ) ， 该 消息 将 被 跳 过 而 不 再 发 送 到 对 端 。 这 意味 着 不 是 所 有 
数据 都 确保 到 达 关 联 的 另 一 端 。 























29 ”端口 号 


任何 时 候 ， 多 个 进程 可 能 同时 使 用 TCP、UDP 和 SCTP 这 3 种 传输 层 
协议 中 的 任何 一 种 。 这 3 种 协议 都 使 用 16 位 整数 的 端口 号 Cport 
number) 来 区 分 这 些 进 程 。 


当 一 个 客户 想 要 跟 一 个 服务 器 联系 时 ， 它 必须 标识 想 要 与 之 通信 的 
这 个 服务 器 。TCP、UDP 和 SCTP 定 义 了 一 组 众所周知 的 端口 Cwell- 
known port) ， 用 于 标识 众所周知 的 服务 。 举 例 来 说 ， 文 持 FTP 的 任何 
TCP/IP 实 现 都 把 21 这 个 众所周知 的 端口 分 配给 FTP 服 务 嚣 。 分 配给 简化 
文件 传送 协议 (Trivial File Trqnsfer Protocol，TFTP〉 的 是 UDP 端 口号 
69. 


a-m., AMAA A M EST O Cephemeral port) 。 
Jo ES L1 55381 35$ EH Ped E A I FP NS ME ERST 2g 
口 的 具体 值 ， 而 只 需 确 信访 端口 在 所 在 主机 中 是 唯一 的 就 行 。 传 输 协 议 
的 代码 确保 这 种 唯一 性 。 


IANA (the Internet Assigned Numbers Authority， 因 特 网 已 分 配 数值 
权威 机 构 ) 维护 着 一 个 端口 号 分 配 状 况 的 清单 。 该 清单 一 度 作为 RFC 多 
次 发 布 ，RFC 1700 [Reynolds and Postel 1994] 是 这 个 系列 的 最 后 一 
^". RFC 3232 [Reynolds 2002] 给 出 了 著 代 RFC 1700 的 在 线 数 据 库 的 
位 置 : http:/www.iana.org/。 端 口号 被 划分 成 以 下 3 段 。 








(1) 众所周知 的 端口 为 0 一 1023。 这 些 端口 由 IANA 分 配 和 控制 。 
可 能 的 话 ， 相 同 端 口号 就 分 配给 TCP、UDP 和 SCTP 的 同一 给 定 服务 。 
例如 ， 不 论 TCP 还 是 UDP 端口 号 80 都 被 赋予 Web 服 务 器 ， 尽 管 它 目前 的 
所 有 实现 都 单纯 使 用 TCP。 
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端口 号 80 分 配 时 SCTP 尚 不 存在 。 新 的 端口 分 配 将 针对 这 3 种 协议 执 
ÍT, RFC 2960 则 声明 所 有 现 有 的 TCP 端 口号 对 于 使 用 SCTP 的 同一 服务 
同样 有 效 。 


(2) 已 登记 的 端口 (registered port) 为 1024 一 49151。 这 些 端口 不 


一 一 





受 IANA 控制 ， 不 过 由 IANA 登记 并 提供 它们 的 使 用 情况 清单 ， 以 方便 整 
个 群体 。 可 能 的 话 ， 相 同 端口 号 也 分 配给 TCP 和 UDP 的 同一 给 定 服务 。 
例如 ，6000 一 6063 分 配给 这 两 种 协议 的 X_ Window 服 务 器 ， 尽 管 它 的 所 
有 实现 当前 单纯 使 用 TCP。49151 这 个 上 限 的 引入 是 为 了 给 临时 端口 留 
出 范围 ， 而 RFC 1700 [Reynolds and Postel 1994] 所 列 的 上 限 为 65535。 





(3) 49152 一 65535 是 动态 的 〈dynamic) 或 私 用 的 〈private) 端 
口 。IANA 不 管 这 些 端口 。 它 们 融 是 我 们 所 称 的 临时 端口 。 (49152 这 个 
魔 数 是 65536 的 四 分 之 三 。) 





图 2-10 展 示 了 站 口号 的 划分 情况 和 常见 的 分 配 情况 。 
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[2-10 ”端口 号 的 分 配 


我 们 要 注意 图 2-10 中 以 下 几 点 。 


e Unix 系 统 有 保留 端口 (reserved port) 的 概念 ， 指 的 是 小 于 1024 的 
任何 端口 。 这 些 端 口上 只 能 赋予 特权 用 户 进程 的 套 接 字 。 上 所 有 IANA 
众所周知 的 端口 都 是 保留 端口 ， 分 配 使 用 这 些 端 口 的 服务 右 〈 例 如 
FTPIRA at) 必须 以 超级 用 户 特权 局 动 。 

e 由 于 历史 原因 ， 源 和 目 Berkeley 的 实现 〈 从 4.3BSD 开 始 ) 曾 在 1024 一 
5000 范 围 内 分 配 临 时 端口 。 这 在 20 世 纪 80 年 代 初 期 是 可 行 的 ， 但 是 
如 今 很 容易 就 找到 一 个 在 任何 给 定时 间 内 同时 文 持 多 于 3977 个 连接 
的 主机 。 于 是 许多 较 新 的 系统 从 另外 的 范围 分 配 临时 端口 以 提供 更 
多 的 临时 端口 ， 它 们 或 者 使 用 由 IANA 定义 的 临时 端口 范围 ， 或 者 
使 用 一 个 更 大 的 其 他 范围 《如 图 2-10 所 示 的 Solaris) 。 








由 于 这 个 原因 ， 许 多 较 早 的 系统 实现 的 临时 端口 范围 的 上 限 为 5 





000. 5 000 这 个 上 限 后 来 发 现 是 一 个 排版 错误 LBorman 」， 本 应 该 是 
50 000。 
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e 有 少数 客户 《而 不 是 服务 器 ) 需要 一 个 保留 端口 用 于 客户 /服务 器 
的 认证 : rlogin 和 rsh 客 户 就 是 常见 的 例子 。 这 些 客户 调用 库 函 
数 rresvport 创 建 一 个 TCP 套 接 字 ， 并 赋予 它 一 个 在 513 一 1023 苑 围 
内 未 使 用 的 端口 。 该 函数 通常 先 尝 试 绑 定 端口 1023， 知 失败 则 演 试 
1022， 依 次 类 推 ， 直 到 在 端口 513 上 亦 或 成 功 ， 亦 或 失败 。 


JER: BSD 的 保留 端口 和 rresvport 函 数 都 跟 IANA 众 所 周知 端口 的 
后 半 部 分 重 登 。 这 是 因为 IANA 众所周知 端口 早先 的 上 限 为 255。1992 年 
的 RFC 1340 (早先 的 一 个 "Assigned Numbers"RFC) 开始 在 256 一 1023 之 
间 分 配 众所周知 的 端口 。1990 年 的 RFC 1060 (更 早先 的 一 个 "Assigned 
Numbers"RFC) 称 256 一 1023 之 间 的 端口 为 Unix 标 准 服务 (Unix 
Standard Services) 。20 世 纪 80 年 代 有 不 少 源 自 Berkeley 的 服务 器 在 512 
以 后 挑选 它们 的 众所周知 的 端口 〈 留 下 256 一 511 这 个 空 
Ri) 。rresvport 函 数 选择 从 1023 开 始 往 下 寻找 ， 直 至 513。 


£p 


一 个 TCP 连 接 的 套 接 字 对 (socket pair) 是 一 个 定义 该 连接 的 两 个 
端点 的 四 元 组 : 本 地 IP 地 址 、 本 地 TCP 端 口号 、 外 地 IP 地 址 、 外 地 TCP 
端口 号 。 套 接 字 对 唯一 标识 一 个 网 络 上 的 每 个 TCP 连 接 。 就 SCTP 而 
言 ， 一 个 关联 由 一 组 本 地 IP 地 址 、 一 个 本 地 端口 、 一 组 外 地 IP 地 址 、 一 
个 外 地 端口 标识 。 在 两 个 端点 均 非 多 宿 这 一 最 简单 的 情形 下 ，SCTP 与 
TCP 所 用 的 四 元 组 套 接 字 对 一 致 。 然 而 在 某 个 关联 的 任何 一 个 端点 为 多 
宿 的 情形 下 ， 同 一 个 关联 可 能 需要 多 个 四 元 组 标识 〈 这 些 四 元 组 的 卫 地 
址 各 不 相同 ， 但 端口 号 是 一 样 的) 。 


标识 每 个 端点 的 两 个 值 〈IP 地 址 和 端口 号 ) 通常 称 为 一 个 套 接 字 。 
我 们 可 以 把 套 接 字 对 的 概念 扩展 到 UDP， 即 使 UDP 是 无 连接 的 。 当 
讲解 套 接 字 函数 (pind、 
connect、getpeername 等 ) 时 ， 我 们 将 指明 它们 在 指定 套 接 字 对 中 的 哪 
些 值 。 举 例 来 说 ，bind 函 数 要 求 应 用 程序 给 TCP、UDP 或 SCTP 套 接 字 指 

















定 本 地 IP 地 址 和 本 地 端口 号 。 


2.10 ”TCP 端口 与 与 并 发 服务 器 


并 发 服务 器 中 主 服务 器 循环 通过 派生 一 个 子 进程 来 处 理 每 个 新 的 连 
接 。 如 果 一 个 子 进程 继续 使 用 服务 器 众所周知 的 端口 来 服务 一 个 长 时 间 
的 请 求 ， 那 将 发 生 什么 ?让 我 们 来 看 一 个 典型 的 序列 。 首 先 ， 在 主 
机 freebsd 上 启动 服务 器 ， 访 主机 是 多 和 窒 的 ， 其 IP 地 址 为 12.106.32.254 和 
192.168.42.1。 服 务 器 在 它 的 众所周知 的 端口 〈 本 例 为 21) 上 执行 被 动 
打开 ， 从 而 开始 等 待 客户 的 请 求 ， 如 图 2-11 所 示 。 
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12.106.32.254 
192.158.42.1 





(«:21, *:*] 一 一 + 监听 套 接 字 
| 


图 2-11 ”TCP 服务器 在 端口 21 上 执行 被 动 打开 


我 们 使 用 记号 {*:21， *:*} 指 出 服务 器 的 套 接 字 对 。 服 务 占 在 任意 
本 地 接口 (第 一 个 星 号 ) 的 端口 21 上 等 待 连接 请 求 。 外 地 IP 地 址 和 外 地 
端口 都 没 有 指定 ， 我 们 用 “*.*” 来 表示 。 我 们 称 它 为 监听 套 接 字 


(listening socket) . 


我 们 用 冒号 来 分 割 耳 地址 和 端口 号 ， 因 为 这 是 HTTP 的 用 法 ， 其 他 
地 方 也 稼 见 。netstat 程 序 使 用 点 号 来 分 割 卫 地址 和 端口 号 ， 不 过 如 此 
表示 有 时 候 会 让 人 混 消 ， 因 为 点 号 既 用 于 域名 《如 
freebsd.unpbook.com.21) ， 也 用 于 IPv4 的 点 分 十 进 制 数 记 法 〈 如 
12.106.32.254.21) 。 


这 里 指定 本 地 IP 地 址 的 星 号 称 为 通 配 (wildcard〉 符 。 如 果 运 行 服 
Fee NEVE SIEM CAB) ， 服 务 器 可 以 指定 它 只 接受 到 达 系 个 特 


定 本 地 接口 的 外 来 连接 。 这 里 要 么 选 一 个 接口 要 么 选任 意 接口 。 服 务 器 
不 能 指定 一 个 包含 多 个 地 址 的 清单 。 通 配 的 本 地 地 址 表示 “任意 ”这 个 选 
择 。 在 图 1-9 中 ， 通 配 地 址 通过 在 调用 bind 之 前 把 套 接 字 地 址 结构 中 的 IP 
地 址 字段 设置 成 INADDR_ANY 来 指定 。 


稍 后 在 IP 地 址 为 206.168.112.219 的 主机 上 启动 第 一 个 客户 ， 它 对 服 
务 右 的 IP 地 址 之 一 12.106.32.254 执 行 主动 打开 。 我 们 假设 本 例 中 客户 主 
机 的 TCP 为 此 选择 的 临时 端口 为 1500， 如 图 2-12 所 示 。 图 中 在 该 客户 的 
下 方 标 出 了 它 的 套 接 字 对 。 













206.169.112.219 


图 2-12 ”客户 对 服务 器 的 连接 请 求 


当 服 务 器 接收 并 接受 这 个 客户 的 连接 时 ， 它 fork 一 个 自身 的 副本 ， 
E cru ML 如 图 2-13 所 示 。 “我们 将 在 4.7 节 中 讲解 
forkrE ZL. ) 
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13.106.32.254 
206.160.112.219 192.168.42.1 


1 
| 
a | 
| 

27,11 
er; euch 
| 


"s. 
1[206.163.112.219:2500,, ~~~. is: 
!  12.126.32.234:21] ! n Ef 








图 2-13 ”并 发 服务 器 让 子 进 程 处 理 客 户 


至 此 ， 我 们 必须 在 服务 器 主机 上 区 分 监听 套 接 字 和 已 连接 套 接 字 
(connected socket) 。 注 意 已 连接 套 接 字 使 用 与 监听 套 接 字 相 同 的 本 地 
端口 〈21) 。 还 要 注意 在 多 宿 服 务 器 主机 上 ， 连 接 一 旦 建立 ， 已 连接 套 








接 字 的 本 地 地 址 〈12.106.32.254) 随即 填 入 。 


下 一 步 我 们 假设 在 客户 主机 上 态 有 一 个 客户 请 求 连接 到 同一 个 服务 
器 。 客 户主 机 的 TCP 为 这 个 新 客户 的 套 接 字 分 配 一 个 未 使 用 的 临时 端 
口 ， 艾 如 说 1501， 如 几 2-14 所 示 。 服 务 器 上 这 两 个 连接 是 有 区 别 的 : 第 
一 个 连接 的 套 接 字 对 和 第 二 个 连接 的 套 接 字 对 不 一 样 ， 因 为 客户 的 TCP 
给 第 二 个 连接 选择 了 一 个 未 使 用 的 器 口 〈1501) 。 











206.168.112.219 
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图 2-14 第 二 个 客户 与 同一 个 服务 器 的 连接 


通过 本 例 应 注意 ，TCP 无 法 仅仅 通过 查看 目的 端口 号 来 分 离 外 来 的 
分 节 到 不 同 的 端点 。 它 必须 查看 套 接 字 对 的 所 有 4 个 元 素 才 能 确定 由 哪 
个 端点 接收 某 个 到 达 的 分 节 。 图 2-14 中 对 于 同一 个 本 地 端口 (2120 存在 
3 个 套 接 字 。 如 果 一 个 分 节 来 自 206.168.112.219 端 口 1500， 目 的 地 为 
12.106.32.254 端 口 21， 它 就 被 递送 给 第 一 个 子 进 程 。 如 果 一 个 分 节 来 目 
206.168.112.219 端 口 1501， 目 的 地 为 12.106.32.254 端 口 21， 它 就 被 递送 
给 第 二 个 子 进 程 。 所 有 目的 端口 为 21 的 其 他 TCP 分 节 都 被 递送 给 拥有 监 
听 套 接 字 的 最 初 那个 服务 器 〈 父 进程 ) 。 











2.11 绥 冲 区 大 小 及 限制 


下 面 我 们 将 介绍 一 些 影响 IP 数 据 报 大 小 的 限制 。 我 们 首先 介绍 这 些 
限制 ， 然 后 就 它们 如 何 影 响应 用 进程 能 够 传送 的 数据 进行 综合 分 析 。 


e。IPv4 数 据 报 的 最 大 大 小 是 65 535 字 节 ， 包 括 IPv4 首 部 。 这 是 因为 如 
图 A-1 所 示 其 总 长 度 字段 占据 16 位 。 

e。IPv6 数 据 报 的 最 大 大 小 是 65 575 字 节 ， 包 括 40 字 节 的 IPv6 首 部 。 这 
是 因为 如 图 A-2 所 示 其 净 答 长 度 字 有 段 占据 16 人 位。 注意 ，IPV6 的 净 葵 
长 度 字段 不 包括 IPv6 首 部 ， 而 IPv4 的 总 长 度 字段 包括 IPv4 首 部 。 
IPv6 — NAK i (jumbo payload) Mm, 'CjE PRT 
展 到 32 位 ， 不 过 这 个 选项 需要 MTU (maximum transmission unit, 
最 大 传输 单元 ) 超过 65 535 的 数据 链 路 提供 支持 。 (这 是 为 主机 到 
主机 的 内 部 连接 而 设计 的 ， 壁 如 HIPPI， 它 们 通常 没有 内 在 的 
MTU. ) 

e 许多 网 络 有 一 个 可 由 硬件 规定 的 MTU。 举 例 来 说 ， 以 太 网 的 MTU 
是 1500 字 节 。 另 有 一 些 链 路 〈 例 如 使 用 PPP 协 议 的 点 到 点 链 路 ) 其 
以 人 为 配置 。 较 老 的 SLIP 链 路 通 稼 使 用 1006 字 节 或 296 字 节 

IMTU. 
IPv4 要 求 的 最 小 链 路 MTU 是 68 字 节 。 这 人 允许 最 大 的 IPv4 首 部 〈 包 括 
20 字 节 的 固定 长 度 部 分 和 最 多 40 字 节 的 选项 部 分 ) 拼接 最 小 的 片段 
(IPv4 痛 部 中 片段 偏 移 字 段 以 8 个 字 节 为 单位 ) 。IPv6 要 求 的 最 小 
链 路 MTU 为 1280 字 节 。IPv6 可 以 运行 在 MITU 小 于 此 最 小 值 的 链 路 
上 ， 不 过 需要 特定 于 链 路 的 分 片 和 重组 功能 ， 以 使 得 这 些 链 路 看 起 
来 具有 至 少 为 1280 字 节 的 MTU (RFC 2460 [Deering and Hinden 
1998] ) 。 
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。 在 两 个 主机 之 间 的 路 径 中 最 小 的 MITU 称 为 路 径 MTU (path 
MTU) 。1500 字 节 的 以 太 网 MTU 是 当今 常见 的 路 径 MTU。 两 个 主 
机 之 间 相 反 的 两 个 方向 上 路 径 MTU 可 以 不 一 致 ， 因 为 在 因特网 中 
路 由 选择 往往 是 不 对 称 的 [Paxson 1196] ， 也 就 是 说 从 A 到 B 的 路 





径 与 从 B 到 A 的 路 径 可 以 不 相同 。 

当 一 个 IP 数 据 报 将 从 某 个 接口 送出 时 ， 如 果 它 的 大 小 超过 相应 链 路 
的 MTU，IPv4 和 IPv6 都 将 执行 分 片 〈fragmentation) 。 这 些 片 段 在 
到 达 最 终 目 的 地 之 前 通常 不 会 被 重组 〈reassembling) 。IPv4 主 机 

对 其 产生 的 数据 报 执行 分 片 ，IPv4 路 由 器 则 对 其 转发 的 数据 报 执行 
分 片 。 然 而 IPv6 只 有 主机 对 其 产生 的 数据 报 执 行 分 片 ，IPv6 路 由 器 
不 对 其 转发 的 数据 报 执行 分 片 。 


我 们 必须 小 心 这 些 术语 的 使 用 。 一 个 标记 为 IPv6 路 由 费 的 设备 可 能 
执行 分 片 ， 不 过 只 是 对 于 那些 由 它 产生 的 数据 报 ， 而 绝 不 是 对 于 那些 由 
它 转发 的 数据 报 。 当 该 设备 产生 IPv6 数 据 报时 ， 它 实际 上 作为 主机 运 
作 。 举 例 来 说 ， 大 多 数 路 由 器 支持 Telnet 协 议 ， 管 理 员 就 用 它 来 配置 路 
由 堪 。 由 路 由 器 的 Telnet 服 务 孝 产生 的 了 P 数 据 报 是 由 路 由 峰 产 生 的 ， 而 
不 是 由 路 由 器 转发 的 。 


你 可 能 注意 到 ，IPv4 首 部 〈 图 A-1) 有 用 于 处 理 IPv4 分 片 的 字段 ， 
IPv6 首 部 《图 A-2) 却 没 有 类 似 的 字段 。 既 然 分 片 是 例外 情况 而 不 是 通 
常情 况 ，IPv6 于 是 引入 一 个 可 选 首部 以 提供 分 片 信息 。 


茶 些 通 常用 作 路 由 器 的 防火 墙 可 能 会 重组 分 片 了 的 分 组 ， 以 便 俘 看 
整个 IP 数 据 报 的 内 容 。 这 样 做 使 得 不 必 在 防火 墙 上 引入 额外 的 复杂 性 就 
能 够 防止 某 些 攻击 。 它 还 要 求 防火 墙 设备 是 进出 网 络 的 唯一 路 径 上 的 设 
备 ， 从 而 减少 了 元 余 的 机 会 。 








e JIPv4 首 部 〈 图 A-1) 的 “不 分 片 (don't fragment) ”位 〈 即 DEF 位 ) Æ 
被 设置 ， 那 么 不 管 是 发 送 这 些 数据 报 的 主机 还 是 转发 它们 的 路 由 
右 ， 都 不 允许 对 它们 分 片 。 当 路 由 器 接收 到 一 个 超过 其 外 出 链 路 
MTU 大 小 且 设 置 了 DF 位 的 IPv4 数 据 报 时 ， 它 将 产生 一 个 
ICMPv4“destination unreachable, fragmentation needed but DF bit 
set”《〈 目 的 地 不 可 达 ， 需 分 片 但 DF 位 已 设置 ) 出 错 消 息 〈 图 A- 

15) 。 

既然 IPv6 路 由 器 不 执行 分 片 ， 每 个 IPv6 数 据 报 于 是 隐 舍 一 个 DF 位 。 
当 IPv6 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 的 IPv6 数 据 报 
时 ， 它 将 产生 一 个 ICMPv6“packet too big" (42H AK) 出 错 消息 
(图 A-16) 。 

IPv4 的 DF 位 和 IPv6 的 隐 含 DF 位 可 用 于 路 径 MTU 发 现 〈IPv4 的 情形 
见 RFC 1191 [Mogul and Deering 1990] ，IPv6 的 情形 见 RFC 


1981 [ McCann, Deering, and Mogul 1996] ) 。 举 例 来 说 ， 如 果 基 
于 IPv4 的 TCP 使 用 该 技术 ， 那 么 它 将 在 所 发 送 的 所 有 数据 报 中 设置 
DEF 位 。 如 果 某 个 中 间 路 由 器 返回 一 个 ICMP“destination unreachable, 
fragmentation needed but DF bit set”* 错 误 ，TCP 就 减 小 每 个 数据 报 的 
数据 量 并 重 传 。 路 径 MTU 发 现 对 于 IPv4 是 可 选 的 ， 然 而 IPv6 的 所 有 
"0 要 么 必须 总 是 使 用 最 小 的 MTU 发 送 IPV6 数 据 
Ko 
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路 径 MTU 有 发 现在 如 今 的 因特网 上 是 有 问题 的 ， 许 多 防火 墙 丢 弃 所 





有 ICMP 消 轧 ， 包 括 用 于 路 径 MTU 发 现 的 上 述 消 轧 。 这 意味 着 TCP 永 远 
得 不 到 要 求 它 降低 所 发 送 数 据 量 的 信和 号。 编写 本 书 时 ，IETF 已 经 开始 笠 
试 定 义 不 依 赖 于 ICMP 出 错 消息 的 另 一 种 路 径 MTU 发 现 方法 。 





IPv4 和 IPv6 都 定义 了 最 小 重组 缓冲 区 大 小 (minimum reassembly 
buffer size) ， 它 是 IPv4 或 IPv6 的 任何 实现 都 必须 保证 支持 的 最 小 数 
据 报 大 小 。 其 值 对 于 IPv4 为 576 字 节 ， 对 于 IPv6 为 1500 字 节 。 例 

如 ， 就 IPv4 而 言 ， 我 们 不 能 判定 某 个 给 定 目的 地 能 人 否 接受 577 字 节 
的 数据 报 。 为 此 有 许多 使 用 UDP 的 IPv4 网 络 应 用 CHIDNS. RIP, 
TFTP, BOOTP, SNMP) 避免 产生 大 于 这 个 大 小 的 数据 报 。 
TCP 有 一 个 MSS (maximum segment size， 最 大 分 节 大 小 ) ， 用 于 
问 对 端 TCP 通 告 对 端 在 每 个 分 节 中 能 发 送 的 最 大 TCP 数 据 量 。 在 图 
2-5 中 我 们 看 到 过 SYN 分 节 上 的 MSS 选 项 。MSS 的 目的 是 告诉 对 端 
其 重组 缓冲 区 大 小 的 实际 值 ， 从 而 试图 避免 分 片 。MSS 经 常设 置 成 
MTU 减 去 IP 和 TCP 首 部 的 固定 长 度 。 在 以 太 网 中 使 用 IPv4 的 MSS 值 
为 1460， 使 用 IPv6 的 MSS 值 为 1440〔 两 者 的 TCP 首 部 都 是 20 个 字 
节 ， 但 IPv4 首 部 是 20 字 节 ，IPv6 首 部 却 是 40 字 节 ) 。 

在 TCP 的 MSS 选 项 中 ，MSS 值 是 一 个 16 位 的 字段 ， 限 定 其 最 大 值 为 
65 ”535。 这 对 于 IPv4 是 适合 的 ， 因 为 IPv4 数 据 报 中 的 最 大 TCP 数 据 
量 为 66 495 (65 ”535 减 去 IPv4 首 部 的 20 字 节 和 TCP 首 部 的 20 字 
节 ) 。 然 而 对 于 具有 特大 净 荷 选项 的 IPv6， 却 需要 使 用 另外 一 种 技 
J5 (RFC 2675 [ Borman, Deering, and Hinden 1999] ) 。 首 先 ， 没 
有 特大 净 答 选 项 的 IPv6 数 据 报 中 的 最 大 TCP 数 据 量 为 65 515 (65 
535 减 去 TCP 首 部 的 20 字 节 ) > 65 535 这 个 MSS 值 于 是 被 视 为 表 
示 “ 无 限 ” 的 一 个 特殊 值 。 该 值 只 在 用 到 特大 净 荷 选项 时 才 使 用 ， 不 
过 这 种 情况 却 要 求实 际 的 MTU 超 过 65 535。 其 次 ， 如 果 TCP 使 用 特 




















大 净 荷 选项 ， 并 且 接 收 到 的 对 端 通告 的 MSS 为 65 535， 那 么 它 所 发 
送 数 据 报 的 大 小 限制 就 是 接口 MTU。 如 果 这 个 值 太 大 (也 就 是 说 
所 在 路 径 中 某 个 链 路 的 MTU 比 较 小 ) ， 那 么 路 径 MTU 发 现 功能 将 
确定 这 个 较 小 值 。 

e SCTP 基 于 到 对 端 所 有 地 址 发 现 的 最 小 路 径 MTU 保 持 一 个 分 片 点 。 
这 个 最 小 MTU 大 小 用 于 把 较 大 的 用 户 消 息 分 割 成 较 小 的 能 够 以 单 
个 IP 数 据 报 发 送 的 若干 片段 。scTP_MAXsEG 套 接 字 选项 可 以 影响 该 
值 ， 使 得 用 户 能 够 请 求 一 个 更 小 的 分 片 点 。 


D7 
2.11.1 ”TCP 输出 
图 2-15 展 示 了 某 个 应 用 进程 写 数据 到 一 个 TCP 套 接 字 中 时 发 生 的 步 
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MSS ACD ART ORSE 
Qi MSSSMIL—40) (1Pv4)? 或 MITU 一 60 (D6) 


| MTU 大 小 的 人 Pw 或 人 v6 分 组 


图 2-15 ”应 用 进程 写 TCP 套 接 字 时 涉及 的 步骤 和 缓冲 区 


每 一 个 TCP 套 接 字 有 一 个 发 送 缓冲 区 ， 我 们 可 以 使 用 so_sNDBuF 套 接 
字 选 项 来 更 改 该 缓冲 区 的 大 小 〈 见 7.5 节 ) 。 当 某 个 应 用 进程 调用 write 
时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 ASIE 








冲 区 。 如 果 该 套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 CX 
应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 绥 冲 区 
中 已 有 其 他 数据 ) ， 该 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻 
塞 的 ， 它 是 通常 的 默认 设置 。 (我 们 将 在 第 16 章 中 冰 述 非 阻塞 的 套 接 
字 。) 内 核 将 不 从 write 系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 
数据 都 复制 到 套 接 字 发 送 缓冲 区 。 因 此 ， 从 写 一 个 TCP 套 接 字 的 write 
调用 成 功 返 回 仅仅 表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 
表明 对 端的 TCP 或 应 用 进程 已 接收 到 数据 。 “我 们 将 在 7.5 节 随 
SoO_LINGER 套 接 字 选项 详细 讨论 这 一 点 。) 


这 一 端的 TCP 提 取 套 接 字 发 送 缓冲 区 中 的 数据 并 把 它 发 送 给 对 端 
TCP， 其 过 程 基于 TCP 数 据 传 送 的 所 有 规则 〈TCPv1 的 第 19 章 和 第 20 
章 ) 。 对 端 TCP 必 须 确认 收 到 的 数据 ， 伴 随 来 自 对 端的 ACK 的 不 断 到 
达 ， 本 端 TCP 至 此 才能 从 套 接 字 发 送 缓冲 区 中 丢弃 已 确认 的 数据 。TCP 
必须 为 已 发 送 的 数据 保留 一 个 副本 ， 直 到 它 被 对 端 确 认为 止 。 
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本 端 TCP 以 MSS 大 小 的 或 更 小 的 块 把 数据 传递 给 耻 ， 同 时 给 每 个 数 
据 块 安 上 一 个 TCP 首 部 以 构成 TCP 分 节 ， 其 中 MSS 或 是 由 对 端 通告 的 
值 ， 或 是 536〈 若 对 端 未 发 送 一 个 MSS 选 项 ) 。 〈536 是 IPv4 最 小 重组 组 
冲 区 字 节 数 576 减 去 IPv4 首 部 字 节 数 20 和 TCP 首 部 字 节 数 20 的 结果 。) IP 
给 每 个 TCP 分 节 安 上 一 个 人 P 首 部 以 构成 IP 数 据 报 ， 并 按照 其 目的 IP 地 址 
查找 路 由 表 项 以 确定 外 出 接口 ， 然 后 把 数据 报 传递 给 相应 的 数据 链 路 。 
IP 可 能 在 把 数据 报 传递 给 数据 链 路 之 前 将 其 分 片 ， 不 过 我 们 已 经 谈 到 
MSS 选 项 的 目的 之 一 就 是 试图 避免 分 片 ， 较 新 的 实现 还 使 用 了 路 径 
MTU 发 现 功能 。 每 个 数据 链 路 都 有 一 个 输出 队列 ， 如 果 该 队列 已 满 ， 
那么 新 到 的 分 组 将 被 丢弃 ， 并 沿 协议 栈 向 上 返回 一 个 错误 : 从 数据 链 路 
到 IP， 再 从 IP 到 TCP。TCP 将 注意 到 这 个 错误 ， 并 在 以 后 某 个 时 刻 重 传 
相应 的 分 节 。 应 用 进程 并 不 知道 这 种 暂时 的 情况 。 


2.11.2 UDP 输出 
图 2-16 展 示 了 某 个 应 用 进程 写 数据 到 一 个 UDP 套 接 字 中 时 发 生 的 步 
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| MTU 估 小 的 TPv4 或 TPv6 分 组 
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数 拒 链 路 


图 2-16 ”应 用 进程 写 UDP 套 接 字 时 涉及 的 步骤 与 缓冲 区 


这 一 次 我 们 以 虚线 框 展 示 套 接 字 发 送 缓冲 区 ， 因 为 它 实际 上 并 不 存 
在 。 任 何 UDP 套 接 字 都 有 发 送 缓冲 区 大 小 (我 们 可 以 使 用 so_sNDBUF 套 
接 字 选项 更 改 它 ， 见 7.5 节 ) ， 不 过 它 仅 仅 是 可 写 到 该 套 接 字 的 UDP 数 
据 报 的 大 小 上 限 。 如 果 一 个 应 用 进程 写 一 个 大 于 套 接 字 发 送 缓冲 区 大 小 
的 数据 报 ， 内 核 将 返回 该 进程 一 个 EMsGsITZE 错 误 。 既 然 UDP 是 不 可 靠 
的 ， 它 不 必 保 存 应 用 进程 数据 的 一 个 副本 ， 因 此 无 需 一 个 真正 的 发 送 组 
冲 区 。 《应 用 进程 的 数据 在 沿 协议 栈 癌 下 传递 时 ， 通 常 被 复制 到 某 种 格 
式 的 一 个 内 核 缓冲 区 中 ， 然 而 当 该 数据 被 发 送 之 后 ， 这 个 副本 就 被 数据 
AREF Jo ) 


这 一 端的 UDP 简单 地 给 来 自用 户 的 数据 报 安 上 它 的 8 字 节 的 首部 以 
构成 UDP 数据 报 ， 然 后 传递 给 IP。IPv4 或 IPv6 给 UDP 数据 报 安 上 相应 的 
IP 首 部 以 构成 IP 数 据 报 ， 执 行路 由 操作 确定 外 出 接口 ， 然 后 或 者 直接 把 
数据 报 加 入 数据 链 路 层 输 出 队列 (如 果 适 合 于 MTU)〉 ， 或 者 分 片 后 再 











把 每 个 片段 加 入 数据 链 路 层 的 输出 队列 。 如 果 某 个 UDP 应 用 进程 发 送 大 
数据 报 〈 璧 如 说 2000 字 节 的 数据 报 ) ， 那 么 它们 相 比 TCP 应 用 数据 更 有 
可 能 被 分 片 ， 因 为 TCP 会 把 应 用 数据 划分 成 MSS 大 小 的 块 ， 而 UDP 却 没 
有 对 等 的 手段 。 
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从 写 一 个 UDP 套 接 字 的 write 调 用 成 功 返 回 表示 所 写 的 数据 报 或 其 
所 有 片段 已 被 加 入 数据 链 路 层 的 输出 队列 。 如 果 该 队列 没有 足够 的 空间 
存放 该 数据 报 或 它 的 某 个 片段 ， 内 核 通 常会 返回 一 个 ENOBUFS 错 误 给 
它 的 应 用 进程 。 

不 幸 的 是 ， 有 些 UDP 的 实现 不 返回 这 种 错误 ， 这 样 甚至 数据 报 未 经 
发 送 就 被 丢弃 的 情况 应 用 进程 也 不 知道 。 
2.11.3 SCTP 输 出 


图 2-17 展 示 了 某 个 应 用 进程 写 数据 到 一 个 SCTP 套 接 字 中 时 发 生 的 
TR o 








SE 


应 用 过程 








MTU 人 小 的 IPvi 或 了 Pv6 分 组 


+ 





图 2-17 ”应 用 进程 号 SCTP 套 接 字 时 涉及 的 步骤 和 缓冲 区 


既然 SCTP 是 与 TCP 类 似 的 可 靠 协议 ， 它 的 套 接 字 也 有 一 个 发 送 组 
冲 区 ， 而 且 跟 TCP 一 样 ， 我 们 可 以 用 so_sNDBuF 套 接 字 选项 来 更 改 这 个 组 
冲 区 的 大 小 《〈 见 7.5 节 ) 。 当 一 个 应 用 进程 调用 write 时 ， 内 核 从 该 应 用 
进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 该 套 接 
字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 (或 是 应 用 进程 的 缓冲 区 
大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 己 有 其 他 数 
Ju) ， 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻塞 的 ， 它 是 通常 
的 默认 设置 。 (我 们 将 在 第 16 章 中 阐述 非 阻 塞 的 套 接 字 。) 内 核 将 不 从 
write 系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 数据 都 复制 到 套 接 
字 发 送 缓冲 区 。 因 此 ， 从 写 一 个 SCTP 套 接 字 的 write 调用 成 功 返 回 仅 仅 
表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 表明 对 端的 SCTP 
或 应 用 进程 已 接收 到 数据 。 
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这 一 端的 SCTP 提 取 套 接 字 发 送 缓冲 区 的 数据 并 把 它 发 送 给 对 端 
SCTP， 其 过 程 基 于 SCTP 数 据 传 送 的 所 有 规则 (数据 传送 的 细节 见 
[Stewart and Xie 2001] 的 第 5 章 ) 。 本 端 SCTP 必 须 等 待 SACK， 在 累 
积 确认 点 超过 已 发 送 的 数据 后 ， 才 可 以 从 套 接 字 缓冲 区 中 删除 该 数据 。 


2.12 标准 因特网 服务 


图 2-18 列 出 了 TCP/IP 多 数 实现 都 提供 的 兰 干 标准 服务 。 注意 ， 表 中 
所 有 服务 同时 使 用 TCP 和 UDP 提 供 ， 并 且 这 两 个 协议 所 用 端口 写 也 相 
同 。 
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图 2-18 ”大 多 数 实现 提供 的 标准 TCP/IP 服 务 包 


这 些 服务 通常 由 Unix 主 机 的 inetd 守 护 进 程 提供 〈 见 13.5 节 ) 。 它 们 
还 提供 使 用 标准 的 Telnet 客 户 程序 束 能 完成 的 简易 测试 机 制 。 举 例 来 
说 ， 下 面 束 是 时 间 获 取 和 回 射 这 两 个 标准 服务 器 的 测试 过 程 : 


aix % telnet freebsd daytime 
Trying 12.106.32.254... 




































































Telnet 客 户 输出 
Connected to freebsd.unpbook.com. Telnet 客 户 输出 
Escape character is '^]'. Telnet 客 户 输 出 
Mon Jul 28 11:56:22 2003 daytime 服 务 器 输出 
Connection closed by foreign host. Telnet 客 户 输出 (服务 器 关闭 连接 ) 
aix % telnet freebsd echo 
Trying 12.106.32.254... Telnet 客 户 输出 
Connected to freebsd.unpbook.com. Telnet P 
Escape character is '^]'. Telnet 客 户 输 出 
hello, world 我 们 键入 这 行 
hello, world 它 由 服务 器 回 射 回来 
^] 键入 Ctrl+] 以 与 Telnet 客 户 交谈 
telnet> quit 告诉 客户 我 们 已 测试 完毕 








Connection closed. 这 次 客户 自己 关闭 连接 








在 这 两 个 例子 中 ， 我 们 键入 主机 名 和 服务 名 (daytime 和 echo) 。 
这 些 服务 名 由 /etc/services 文 件 映 射 到 图 2-18 所 示 的 端口 号 ， 详 见 11.5 


zx 
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注意 ， 当 我 们 连接 到 daytime 服 务 嚣 时， 服务 器 执行 主动 关闭 ， 然 
而 当 连 接 到 echo 服 务 器 时 ， 客 户 执行 主动 关闭。 回顾 图 2-4， 我 们 知道 
执行 主动 关闭 的 那 一 端 就 是 历经 TIME_WAIT 状 态 的 那 一 端 。 


为 了 应 付 针对 它们 的 拒绝 服务 攻击 和 其 他 资源 使 用 攻击 ， 在 如 今 的 
系统 中 ， 这 些 简 单 的 服务 通常 被 共用 。 








2.13 


前 见 因特网 应 用 的 协议 使 用 


图 2-19 总 结 了 各 种 常见 的 因特网 应 用 对 协议 的 使 用 情况 
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图 2-19 ”各 种 常见 因特网 应 用 的 协议 使 用 情况 


前 两 个 因特网 应 用 ping 和 traceroute 是 使 用 ICMP 协 议 实现 的 网 络 诊 
断 应 用 。traceroute 自 行 构造 UDP 分 组 来 发 送 并 读 取 所 引发 的 ICMP 应 
PRE 


紧 接着 是 3 个 流行 的 路 由 协议 ， 它 们 展示 了 路 由 协议 使 用 的 各 种 传 
输 协 议 。OSPF 通 过 原始 套 接 字 直接 使 用 卫 ，RIP 使 用 UDP，BGP 使 用 
TCP. 


接 下 来 5 个 是 基于 UDP 的 网 络 应 用 ， 然 后 是 7 个 TCP 网 络 应 用 和 4 个 
同时 使 用 UDP 和 TCP 的 网 络 应 用 ， 最 后 5 个 是 IP 电 话 网 络 应 用 ， 它 们 或 
者 独自 使 用 SCTP， 或 者 选用 UDP、TCP 或 SCTP。 
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244 小 结 


UDP 是 一 个 简单 、 不 可 靠 、 无 连接 的 协议 ， 而 TCP 是 一 个 复杂 、 可 
靠 、 面 向 连接 的 协议 。SCTP 组 合 了 这 两 个 协议 的 一 些 特性 ， 并 提供 了 
TCP 所 不 具备 的 额外 特性 。 尺 管 绝 大 多 数 因 特 网 应 用 CWeb. Telnet. 
FTP 和 电子 邮件 ) 使 用 TCP， 但 这 3 个 协议 对 传输 层 都 是 必要 的 。 在 22.4 
节 中 我 们 将 阐述 选用 UDP 蔡 代 TCP 的 理由 。 在 23.12 节 中 我 们 将 前 述 选 用 
SCTP 蔡 代 TCP 的 理由 。 


TCP 使 用 三 路 握手 建立 连接 ， 使 用 四 分 组 交换 序列 终止 连接 。 当 一 
个 TCP 连 接 被 建立 时 ， 它 从 CLOSED 状 态 转换 到 ESTABLISHED 状 态 ; 
当 该 连接 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 个 TCP 连 接 可 处 于 11 种 
状态 之 一 ， 其 状态 转换 图 给 出 了 从 一 种 状态 转换 到 另 一 种 状态 的 规则 。 
理解 状态 转换 图 是 使 用 netstat 命 令 诊断 网 络 问题 的 基础 ， 也 是 理解 当 
某 个 应 用 进程 调用 诸如 connect、 accept 和 close 等 函数 时 所 发 生 过 程 的 
关键 。 


TCP 的 TIME_WAIT 状 态 一 直 是 一 个 造成 网 络 编程 人 员 混 请 的 来 
源 。 存 在 这 一 状态 是 为 了 实现 TCP 的 全 双 工 连接 终止 〈 即 处 理 最 终 那个 
ACKER) ， 并 人 允许 老 的 重复 分 节 从 网 络 中 消逝 。 


SCTP 使 用 四 路 握手 建立 关联 ;使 用 三 分 组 交换 序列 终止 关联 。 当 
一 个 SCTP 关 联 被 建立 时 ， 它 从 CLOSED 状 态 转换 到 ESTABLISHED 状 
态 ;， 当 该 关联 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 个 SCTP 关 联 可 处 
于 8 种 状态 之 一 ， 其 状态 转换 图 给 出 从 一 种 状态 转换 到 另 一 种 状态 的 规 
则 。SCTP 不 像 TCP 那 样 需要 TIME_ WAIT 状 态 ， 因 为 它 使 用 了 验证 标 
des 








习题 


2.1 我 们 已 经 提 到 IPv4 (IP 版 本 4) 和 IPv6 (版 本 6) 。IP 版 本 5 情 
况 如 何 ，IP 版 本 0、1、2 和 3 又 是 什么 ? 


(提示 : 碍 IANA 的 “Internet ProtocoP 注 册 处 。 要 是 你 无 法 访问 IANA 
所 在 网 址 http:/www.iana.org， 那 就 查看 附录 中 的 解答 吧 。) 


2.2 你 从 哪里 可 以 找到 有 关 IP 版 本 5 的 信息 ? 


23 在 讲解 图 2-15 时 我 们 说 过 ， 如 果 没 收 到 来 自 对 端的 MSS 选 项 ， 
本 端 TCP 就 采用 536 这 个 MSS 值 。 为 什么 使 用 这 个 值 ? 


2.4 给 在 第 1 章 中 讲解 的 时 间 获 取 客 户 /服务 器 应 用 男 出 类 似 于 图 2- 
5 的 分 组 交换 过 程 ， 假 设 服务 器 在 单个 ICP 分 节 中 返回 26 个 字 节 的 完整 
数据 。 


2.5 ”在 一 个 以 太 网 上 的 主机 和 一 个 令 牌 环 网 上 的 主机 之 间 建 立 一 
个 连接 ， 其 中 以 太 网 上 主机 的 TCP 通 告 的 MSS 为 1460， 令 牌 环 网 上 主机 
的 TCP 通 告 的 MSS 为 4096。 两 个 主机 都 没有 实现 路 径 MTU 发 现 功能 。 观 
察 分 组 ， 我 们 在 两 个 相反 方向 上 都 找 不 到 大 于 1460 字 节 的 数据 ， 为 什 
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2.6 在 讲解 图 2-19 时 我 们 说 过 OSPF 直 接 使 用 IP。 承 载 OSPF 数 据 报 
的 IPv4 首 部 〈 见 图 A-1) 的 协议 字段 是 什么 值 ? 


2. 在 讨论 SCTP 输 出 时 我 们 说 过 ，SCTP 发 送 端 必须 等 待 累积 确认 
点 超过 已 发 送 的 数据 ， 才 可 以 从 套 接 字 缓冲 区 中 释放 该 数据 。 假 设 某 个 
选择 性 确认 (SACK) 表明 累积 确认 点 之 后 的 数据 也 得 到 了 确认 ， 这 样 
的 数据 为 什么 却 不 能 被 释放 呢 ? 
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CFT BLEU A AIR PETS Ah, XX UP CS" BRIBBU. EGE 
的 或 重复 的 分 节 ”， 却 没 能 准确 表达 Stevens 先 生 的 原意 。 失 而 复 现 的 分 
组 并 不 是 超时 重 传 的 分 组 ， 而 是 由 暂时 的 路 由 原因 造成 的 迷途 的 分 组 。 
当 路 由 稳定 后 ， 它 们 又 会 正常 到 达 目 的 地 ， 其 前 提 是 它们 在 此 前 尚未 被 
路 由 器 丢 痉 。 高 速 网 络 中 32 位 的 序列 号 短 时 间 内 就 可 能 循环 一 轮 重 新 使 
用 ， 知 不 用 时 间 戳 选项， 失 而 复 现 的 分 组 所 承载 的 分 节 可 能 与 再 次 使 用 
相同 序列 号 的 真正 分 节 发 生 混 消 。 一 一 详 者 注 


包 本 图 同时 给 出 了 这 些 标准 因特网 服务 的 英文 名 称 和 中 文 名 称 ， 其 中 英 
文 名 称 是 正式 名 称 (/etc/services 文 件 使 用 这 些 名 称 )。 之 所 以 这 么 
区 分 是 因为 本 书 围绕 其 中 两 种 服务 〈 回 射 和 时 间 获 取 ) 的 实现 展开 ， 为 
区 分 本 书 中 的 实现 与 各 个 Unix 系 统 的 内 部 实现 ， 我 们 用 中 文 名 称 称呼 前 
者 ， 用 英文 名 称 称呼 后 者 〈 原 书 也 对 两 者 做 了 类 似 区 分 ) 。 男 外 内 部 实 
现 的 服务 总 是 使 用 标准 端口 号 ， 本 书 实现 的 服务 则 可 根据 情况 选择 。 因 
此 当 使 用 英文 名 称 服务 名 时 ， 必 定 与 其 标准 端口 号 对 应 。 MERE 

















JOREgqEAE 


St BS TET IT 


3.1 概述 


本 章 开 始 讲解 套 接 字 API。 我 们 从 套 接 字 地 址 结构 开始 讲解 ， 本 书 
中 几乎 每 个 例子 都 用 到 它们 。 这 些 结构 可 以 在 两 个 方向 上 传递 : 从 进程 
到 内 核 和 从 内 核 到 进程 。 其 中 从 内 核 到 进程 方 癌 的 传递 是 值 一 结果 参数 
的 一 个 例子 ， 我 们 会 在 本 书 中 讲 到 这 些 参数 的 许多 例子 。 


地 址 转换 函数 在 地 址 的 文本 表达 和 它们 存放 在 套 接 字 地 址 结构 中 的 
二 进 制 值 之 间 进 行 转换 。 多 数 现存 的 IPv4 代 码 使 用 inet_addr 和 
inet_ntoa 这 两 个 函数 ， 不 过 两 个 新 函数 inet_pton 和 inet_ntop 同 时 适用 
于 IPv4 和 IPv6 两 种 代码 。 


这 些 地 址 转换 函数 存在 的 一 个 问题 是 它们 与 所 转换 的 地 址 类 型 协议 
相关 ， 要 考虑 究竟 是 IPv4 地 址 还 是 ITPv6 地 址 。 为 克服 这 个 问题 ， 我 们 开 
发 了 一 组 名 字 以 sock_ 开头 的 函数 ， 它 们 以 协议 无 关 方式 使 用 套 接 字 地 
址 结构 。 我 们 将 贯穿 全 书 使 用 这 组 函数 ， 使 我 们 的 代码 与 协议 无 关 。 





3.2” 套 接 字 地 址 结构 


大 多 数 套 接 字 函数 都 需要 一 个 指 同 套 接 字 地 址 结构 的 指针 作为 参 
数 。 每 个 协议 族 都 定义 它 自 己 的 套 接 字 地 址 结构 。 这 些 结构 的 名 字 均 以 
sockaddr _ 开头 ， 并 以 对 应 每 个 协议 族 的 唯一 后 缀 结尾 。 
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3.24 IPv4 套 接 字 地 址 结构 


IPv4 套 接 字 地 址 结构 通常 也 称 为 “网 际 套 接 字 地 址 结构 ”， 它 以 
sockaddr_in 命 名 ， 定 义 在 <netinet/in.h> 头 文件 中 。 图 3-1 给 出 了 它 的 
POSIX 定 义 。 


struct in_addr { 
in addr: s addr; /* 32-bit IPv4 address */ 
/* network byte ordered */ 


struct sockaddr ia { 
E 


uint8 t sin len; /* length cf structure (18) rj 

sa tamily t sin family; /* AF INET */ 

in port - sin port; /* 16-bit TCP or UDP port number */ 
/* network byte ordered */ 

struct in_addr sin_addr; /* 32-bit TPv4 address */ 
/* network byte ordered 4/ 

char sin zoro[8!; /* unused */ 





图 3-1 网 际 〈IPv4) 套 接 字 地 址 结构 : sockaddr in 


利用 图 3-1 所 示 的 例子 ， 我 们 对 套 接 字 地 址 结构 做 几 点 一 般 性 的 说 
明 。 


。 长 度 字段 sin_len 是 为 增加 对 OSI 协议 的 支持 而 随 4.3BSD-Reno 添 加 
的 〈 图 1-15) 。 在 此 之 前 ， 第 一 个 成 员 是 sin_family， 它 是 一 个 无 
符号 短 整 数 Cunsigned short) 。 并 不 是 所 有 的 广 家 都 支持 套 接 字 
地 址 结构 的 长 度 字 段 ， 而 且 POSIX 规 范 也 不 要 求 有 这 个 成 员 。 该 成 








员 的 数据 类 型 uint8_t 是 典型 的 ， 符 合 POSIX 的 系统 部 提供 这 种 形 


式 的 数据 类 型 〈《 见 图 3-2) 。 


正 是 因为 有 了 长 度 字 段 ， 才 简化 了 长 度 可 变 套 接 字 地 址 结构 的 处 


理 。 


int8 - 


vint& t 


int16 t 


vintle t 
int3z t 


vint32 t 


带 符号 的 8 位 整数 
Au TE E38 T REE 
带 符号 的 16 位 整数 
xi SLM 
ERES EBA 
ERN SHAA 








esys/types.h> 
<SyS/types.h> 
csys/cypes.h» 
<sys/types.h> 
ssys/types.h> 
<sys/types.h> 


sa_family_t HERZ Wh hik GER i adit 5 «8ys/socke-.hz 
in adc- t IPv4 地 址 ， 一 般 为 uint32 t «netiret/ir.h» 
TCPUDP O0, —fREJjuint-é t 


K3-2 ” POSIX 规范 要 求 的 数据 类 型 





enetiret/ir.h» 


e 即使 有 长 度 字段 ， 我 们 也 无 须 设 置 和 检查 它 ， 除 非 涉及 路 由 套 接 字 
〈 见 第 18 章 ) 。 它 是 由 处 理 来 自 不 同 协议 族 的 套 接 字 地 址 结构 的 例 
Fe (例如 路 由 表 人 处 理 代码 ) 在 内 核 中 使 用 的 。 


在 源 自 Berkeley 的 实现 中 ， 从 进程 到 内 核 传 递 套 接 字 地 址 结构 的 4 个 
BPE PRA (bind、connect、sendto 和 sendmsg) 都 要 调用 sockargs 函 
数 〈( 见 TCPV2 第 452 页 )。 该 函数 从 进程 复制 套 接 字 地 址 结构 ， 并 显 式 
地 把 它 的 sin_1len 字 上段 设 置 成 早先 作为 参数 传递 给 这 4 个 函数 的 该 地 址 结 
构 的 长 度 。 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 5 个 套 接 字 函 数 分 别 
是 accept、recvfrom、recvmsg、getpeername 和 getsockname， 均 在 返回 
到 进程 之 前 设置 sin_len 字 上 段 。 
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遗憾 的 是 ， 通 常 没 有 简单 的 编译 时 测试 来 确定 一 个 实现 是 否 为 它 的 
套 接 字 地 址 结构 定义 了 长 度 字段 。 在 我 们 的 代码 中 ， 我 们 通过 测试 
HAVE_SOCKADDR_SA_LEN 常 值 〈 见 图 D.2) 来 确定 ， 然 而 是 否定 义 该 常 值 则 
需 编译 一 个 使 用 这 一 可 选 结构 成 员 的 简单 测试 程序 ， 并 看 是 否 编译 成 功 


来 决定 。 在 图 3-4 中 我 们 将 看 到 ， 如 果 套 接 字 地 址 结构 有 长 度 字段 ， 则 
IPv6 实 现 需 定义 SIN6_LEN。 一 些 IPv4 实 现 〈 例 如 Digital Unix) 基于 某 个 
编译 时 选项 (例如 _sockADDR_LEN) 确定 是 否 给 应 用 程序 提供 套 接 字 地 


址 结 


构 中 的 长 度 字 段 。 这 个 特性 为 较 早 的 程序 提供 了 兼容 性 。 


POSIX 规 范 只 需要 这 个 结构 中 的 3 个 字段 : sin_family、sin_addr 和 
sin_port。 对 于 符合 POSIX 的 实现 来 次 ， 定 义 额 外 的 结构 字段 是 可 
以 接受 的 ， 这 对 于 网 际 套 接 字 地 址 结构 来 说 也 是 正常 的 。 几 乎 所 有 
的 实现 都 增加 了 sin_zero 字 段 ， 所 以 所 有 的 套 接 字 地 址 结构 大 小 都 
至 少 是 16 字 节 。 

我 们 给 出 了 字段 s_addr、sin_family 和 sin_port 的 POSIX 数 据 类 
型 。in_addr_t 数 据 类 型 必须 是 一 个 至 少 32 位 的 无 符号 整数 类 

型 ，in_port_t 必 须 是 一 个 至 少 16 位 的 无 符号 整数 类 型 ， 

而 sa_family_t 可 以 是 任何 无 符号 整数 类 型 。 在 文 持 长 度 字 段 的 实 
现 中 ，sa_family_t 通 常 是 一 个 8 位 的 无 符号 整数 ， 而 在 不 支持 长 度 
字段 的 实现 中 ， 它 则 是 一 个 16 位 的 无 符号 整数 。 图 3-2 列 出 了 
POSIX 定 义 的 这 此 数据 类 型 以 及 后 面 将 会 过 到 的 其 他 POSIX 数 据 关 
型 


我 们 还 将 过 到 数据 类 型 u_char、u_short、u_int 和 u_long， 它 们 都 
是 无 符号 的 。POSIX 规 范 定 义 这 些 类 型 时 特地 标记 它们 已 过 时 ， 仅 
FEAT ASTRA ASE EY 

IPv4 地 址 和 TCP 或 UDP 端口 号 在 套 接 字 地 址 结构 中 总 是 以 网 络 字 节 
序 来 存储 。 在 使 用 这 些 字 段 时 ， 我 们 必须 牢记 这 一 点 。 我 们 将 在 
3.4 节 中 详细 说 明 主 机 字 节 序 与 网 络 字 节 序 的 区 别 。 
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32 位 IPV4 地 址 存在 两 种 不 同 的 访问 方法 。 举 例 来 襄 ， 如 果 serv 定 义 
为 某 个 网 际 套 接 字 地 址 结构 ， 那 么 serv.sin_addr 将 按 in_addr 结 构 
引用 其 中 的 32 位 IPv4 地 址 ， 而 serv.sin_addr.s_addr 将 

按 in_addr_t (通常 是 一 个 无 符号 的 32 位 整数 ) 引用 同一 个 32 位 
IPv4 地 址 。 因 此 ， 我 们 必须 正确 地 使 用 IPv4 地 址 ， 尤 其 是 在 将 它 作 


sin addr^É Bé — ^ Z& t4, 而 好 仅仅 是 一 in addr t 类 型 的 无 符号 











长 整数 ， 这 是 有 历史 原因 的 。 早 期 的 版 本 (4.2BSD) 把 in_addr 结 构 定 
义 为 多 种 结构 的 联合 Cunion) ， 人 允许 访问 一 个 32 位 IPv4 地 址 中 的 所 有 4 
个 字 节 ， 或 者 访问 它 的 2 个 16 位 值 。 这 用 在 地 址 被 划分 成 A、B 和 C 三 类 
的 时 期 ， 便 于 获取 地 址 中 的 适当 字 节 。 然 而 随 着 子 网 划分 技术 的 来 临 和 
无 类 地 址 编排 〈 见 A.4 节 ) 的 出 现 ， 各 种 地 址 类 正在 消失 ， 那 个 联合 已 
不 再 需要 了 。 如 今 大 多 数 系统 已 经 废除 了 该 联合 ， 转 而 把 in_addr 定 义 
为 仅 有 一 个 in_addr_t 字 段 的 结构 。 


e sin_zero 字 段 未 曾 使 用 ， 不 过 在 填写 这 种 套 接 字 地 址 结构 时 ， 我 们 
总 是 把 该 字段 置 为 0。 按 照 惯 例 ， 我 们 总 是 在 填写 前 把 整个 结构 置 
为 0， 而 不 是 单单 把 sin_zero 字 段 置 为 0。 


尽管 多 数 使 用 该 结构 的 情况 不 要 求 这 一 字段 为 0， 但 是 当 捆 绑 一 个 
非 通 配 的 IPv4 地 址 时 ， 该 字段 必须 为 0 (CTCPv2 第 731 一 732 页 ) 。 








。 套 接 字 地 址 结构 仪 在 给 定 主 机 上 使 用 虽然 结构 中 的 茶 些 字段 〈 例 
如 IP 地 址 和 端口 号 〉 用 在 不 同 主机 之 间 的 通信 中 ， 但 是 结构 本 里 并 
不 在 主机 之 间 传 递 。 


3.22 ”通用 和 套 接 字 地 址 结构 


当 作 为 一 个 参数 传递 进 任何 套 接 字 函数 时 ， 套 接 字 地 址 结构 总 是 以 
引用 形式 (也 就 是 以 指 疝 该 结构 的 指针 〉 来 传递 。 然 而 以 这 样 的 指针 作 
d D ene 须 处 理 来 自 所 支持 的 任何 协议 族 的 套 接 
子 £n TA) o 


在 如 何 声明 所 传递 指针 的 数据 类 型 上 存在 一 个 问题 。 有 了 ANSI C 
后 解决 办 法 很 简单 : void ”* 是 通用 的 指针 类 型 。 然 而 套 接 字 函数 是 在 
ANSI C 之 前 定义 的 ， 在 1982 年 采取 的 办 法 是 在 <sys/socket .h> 头 文件 中 
定义 一 个 通用 的 套 接 字 地 址 结构 ， 如 图 3-3 所 示 。 


Struct sockaddr { 





uint t sa len; 
sa family t sa family; /* address family: AF xxx value */ 
char sa Gata[1«]; /* protccol-specific address */ 


i 
图 3-3 ”通用 套 接 字 地 址 结构 : sockaddr 
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于 是 套 接 字 函数 被 定义 为 以 指向 某 个 通用 套 接 字 地 址 结构 的 一 个 指 
针 作 为 其 参数 之 一 ， 这 正如 bind 函 数 的 ANSIC 函 数 原 型 所 示 : 


int bind(int, struct sockaddr *, socklen t); 





这 就 要 求 对 这 些 函 数 的 任何 调用 都 必须 要 将 指向 特定 于 协议 的 套 接 
字 地 址 结构 的 指针 进行 类 型 强制 转换 (casting) ， 变 成 指向 某 个 通用 套 
接 字 地 址 结构 的 指针 ， 例 如 : 


struct sockaddr in serv; /* IPv4 socket address structure */ 
/* fill in serv() */ 


bind(sockfd, (struct sockaddr *) &serv, sizeof(serv)); 


如 果 我 们 省 略 了 其 中 的 类 型 强制 转换 部 分 “(struct sockaddr *)”, 
并 假设 系统 的 头 文件 中 有 bind 函 数 的 一 个 ANSI CC 原型， 那么 C 编 译 器 就 
会 产生 这 样 的 警告 信息 :“warning: passing arg 2 of 'bind from 
incompatible pointer type.” (ZE: 把 不 兼容 的 指针 类 型 传递 给 bind' K 
数 的 第 二 个 参数 。) 


从 应 用 程序 开发 人 员 的 观点 看 ， 这 些 通用 套 接 字 地 址 结构 的 唯一 用 
途 就 是 对 指向 特定 于 协议 的 套 接 字 地 址 结构 的 指针 执行 类 型 强制 转换 。 


回顾 一 下 1.2 节 ， 在 我 们 自己 的 unp.h 头 文件 中 ， 把 SA 定义 为 struct 
sockaddr 只 是 为 了 缩短 类 型 强制 转换 这 些 指针 所 必须 写 的 代码 。 


从 内 核 的 角度 看 ， 使 用 指 同 通用 套 接 字 地 址 结构 的 指针 另 有 原因 : 
内 核 必须 取 调 用 者 的 指针 ， 把 它 类 型 强制 转换 为 struct sockaddr *38 
型 ， 然 后 检查 其 中 sa_family 字 有 段 的 值 来 确定 这 个 结构 的 真实 类 型 。 然 
而 从 应 用 程序 开发 人 员 的 角度 看 ， 要 是 void * 这 个 指针 类 型 可 用 那 就 更 
简单 了 ， 因 为 无 须 显 式 进行 类 型 强制 转换 。 


3.2.3 ”IPv6 套 接 字 地 址 结构 


| “IPv6 套 接 字 地 址 结构 在 <netinet/in.h> 头 文件 中 定义 ， 如 图 3-4 所 
示 。 











struct in6 addr { 
units t s6 addr[16]; /* 128 bit IPv6 address */ 
/^ network byte crdered ^/ 


ds 
ja 


#define STN&6 LEN /* required for compile-time tests */ 
struct sockaddr_ine { 
uints 七 sin& len; /* length of this struct (28) */ 
sa family t sine Zamilv; /* AF INET5 */ 
in port t sin6 port; /* trensport layer porté */ 
/^ network byte crdered */ 
uint32 t sine :lowinfo; /* flow infcrmation, undefined */ 
struct iné_addr sin6 addr; /* IPvü address */ 
/* network bvte crdered */ 
uint32 t Sin6_ scope :di /* set of interfaces for a scope */ 


1. 
je 
图 3-4 ”IPv6 套 接 字 地 址 结构 : sockaddr ine 
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关于 IPv6 对 于 套 接 字 API 的 扩展 定义 在 RFC 3493 中 [Gilligan et al. 
2003] 。 


对 于 图 3-4 我 们 要 注意 以 下 几 点 。 





人 

须 定 义 。 

e IPV6 的 地 址 族 是 AF_INET6， 而 IPV4 的 地 址 族 是 AF_INET。 

e 结构 中 字段 的 先后 顺序 做 过 编排 ， 使 得 如 果 sockaddr_in6 结 构 本 二 
是 64 位 对 齐 的 ， 那 么 128 位 的 sin6_addr 字 段 也 是 64 位 对 齐 的 。 在 一 
些 64 位 处 理 机 上 ， 如 果 64 位 数据 存储 在 某 个 64 位 边界 人 位置， 那么 对 
它 的 访问 将 得 到 优化 处 理 。 

° sin6_flowinfo 字 段 分 成 两 个 字段 : 

o 低 序 20 位 是 流标 (flow label) ; 
o 高 序 12 位 保留 。 
流标 字段 随 图 A-2 讲 解 。 它 的 使 用 仍然 是 一 个 研究 课题 。 

e 对 于 具备 范围 的 地 址 (scoped address) ，sin6_scope_id 字 段 标识 
其 范围 (scope)， 最 常见 的 是 链 路 局 部 地 址 (ink-local address) 
的 接口 索引 Cinterface index) (WAST) 。 





3.2.4 新 的 通用 套 接 字 地 址 结构 


作为 IPv6 套 接 字 API 的 一 部 分 而 定义 的 新 的 通用 套 接 字 地 址 结构 克 
服 了 现 有 struct ”sockaddr 的 一 些 缺 点。 不 像 struct ”sockaddr， 新 的 
struct sockaddr_storage 中 以 容纳 系统 所 支持 的 任何 套 接 字 地 址 结 
构 。 sockaddr_storage 结 构 在 <netinet/in,.h> 头 文件 中 定义 ， 如 图 3-5 所 
Ze 


struct sockaddr_storase [ 
uirts$ t ss len; /*^ length of this struct (inplemerta-ion dependent) ¢/ 
sa family t se_famicyr /* addrece family: AF xxx value */ 
/* implementation-dependent elements to provide: 
t a) alignment sufficient tc fulfill the alignment requirements of 
all sccket address types that the system supports. 
* h) enough Storage to bola any Lype of semket address that thie 
system supports. 
sf 


T 





图 3-5 “存储 套 接 字 地 址 结构 : sockaddr storage 


sockadd r_storage 类 型 提供 的 通用 套 接 字 地 址 结 构 相 比 sockadd r 存 
在 以 下 两 点 差别 。 


(1) 如 果 系 统 支 持 的 任何 套 接 字 地 址 结构 有 对 齐 需 要 ， 那 
么 sockaddr_storage 能 够 满足 最 苛刻 的 对 齐 要 求 。 
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(2) sockaddr_storage 足 够 大 ， 能 够 容纳 系统 支持 的 任何 套 接 字 地 址 


结构 。 


注意 ， 除 了 ss_family 和 ss_len 外 (如 果 有 的 
th) ，sockaddr_storage 结 构 中 的 其 他 字段 对 用 户 来 说 是 透明 
的 。 sockaddr_storage 结 构 必 须 类 型 强制 转换 成 或 复制 到 适合 
c UU rte eee pore geen ey E dM 
Ms 


3.2.5” 套 接 字 地 址 结构 的 比较 
在 图 3-6 中 ， 我 们 对 本 书 将 遇 到 的 5 种 套 接 字 地 址 结构 进行 了 比较 : 





IPv4、IPv6、Unix 域 〈 见 图 15-1) 、 数 据 链 路 〈 见 图 18-1) 和 存储 。 在 
该 图 中 ， 我 们 假设 所 有 套 接 字 地 址 结构 都 包含 一 个 单字 节 的 长 度 字段 ， 
地 址 族 字 段 也 占用 一 个 字 节 ， 其 他 所 有 字段 都 占用 确切 的 最 短 长 度 。 


IPv4 IPv5 Unix BEDS 存储 
sockaddr ini) sockaddr ia6() sockaddr un() sockaddr di{) sockaddr sto-age() 
Kitt lar IHETS Kn pr LO Kite | LINK KIE | AF XXX 
Vom p s 




















32 位 JPv4 地 址 


ERE (ey) 
193-1 


接口 务 字 和 
APRS tbh: 


123 位 IPv6 池 址 
《用户 透 明 】 





mias 
ES 107 








up d 1p 
图 18-! 
32 ^vi Sp 
PEE ORE W) 
图 3-4 
n] de nr FR PRA 


图 15-1 


图 3-6 不 同 套 接 字 地 址 结构 的 比较 


前 两 种 套 接 字 地 址 结构 是 固定 长 度 的 ， 而 Unix 域 结构 和 数据 链 路 结 
构 是 可 变 长 度 的 。 为 了 处 理 长 度 可 变 的 结构 ， 当 我 们 把 指向 某 个 套 接 字 
地 址 结构 的 指针 作为 一 个 参数 传递 给 某 个 套 接 字 函数 时 ， 也 把 该 结构 的 
长 度 作 为 另 一 个 参数 传递 给 这 个 函数 。 我 们 在 每 种 长 度 固定 的 结构 下 方 
给 出 了 这 种 结构 的 字 节 数 长 度 〈 束 4.4BSD 实 现 而 言 ) 。 


sockaddr_un 结 构 本 身 并 非 长 度 可 变 的 〈 见 图 15-1) ， 但 是 其 中 的 信 
县 《 即 结构 中 的 路 径 名 ) 却 是 长 度 可 变 的 。 当 传递 指向 这 些 结构 的 指针 
时 ， 我 们 必须 小 心 处 理 长 度 字 段 ， 包 括 套 接 字 地 址 结构 本 身 的 长 度 字 段 
00 0 a i a 0 03 


本 图 展示 了 我 们 贯穿 全 书 的 一 种 风格 : 结构 名 用 加 粗 字 体 ， 后 跟 花 
括号 ， 例 如 sockaddr_in{f]}。 














我 们 早先 指出 ， 长 度 字 段 是 随 着 4.3BSD Reno 版 本 增加 到 所 有 套 接 
字 地 址 结构 中 的 。 要 是 长 度 字 段 随 套 接 字 API 的 原始 版 本 提供 了 ， 那 么 
所 有 套 接 字 函数 就 不 再 需要 长 度 参数 例如 bind 和 connect 函 数 的 第 
三 个 参数 。 相 反 ， 结 构 的 大 小 可 以 包含 在 结构 的 长 度 字 段 中 。 








3.3” 值 一 结果 参数 


我 们 提 到 过 ， 妆 往 一 个 套 接 字 函 数 传递 一 个 侠 接 字 地 址 结构 时 ， 访 
结构 总 是 以 引用 形式 来 传递 ， 也 束 是 说 传递 的 古 指 回访 结构 的 一 个 指 
针 。 该 结构 的 长 度 也 作为 一 个 参数 来 传递 ， 不 过 其 传递 方式 取决 于 该 结 
构 的 传递 方 加 :是 从 进程 到 内 核 ， 还 是 从 内 核 到 进程 。 


(1) 从 进程 到 内 核 传 递 套 接 字 地 址 结构 的 函数 有 3 个 : bind. connect 
和 sendto。 这 些 函 数 的 一 个 参数 是 指 癌 某 个 套 接 字 地 址 结构 的 指针 ， 另 
一 个 参数 是 该 结构 的 整数 大 小 ， 例 如 : 


struct sockaddr in serv; 











/* fill in serv{} */ 
connect(sockfd, (SA *) &serv, sizeof(serv)); 


既然 指针 和 指针 所 指 内 容 的 大 小 都 传递 给 了 了 内核， 于 是 内 核 知道 到 
底 需 从 进程 复制 多 少数 据 进 来 。 图 3-7 展 示 了 这 个 情形 。 
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图 3-7 ”从 进程 到 内 核 传递 套 接 字 地 址 结构 











我 们 将 在 下 一 章 中 看 到 ， 套 接 字 地 址 结构 大 小 的 数据 类 型 实际 上 
是 socklen_t， 而 不 是 int， 不 过 POSIX 规 范 建 议 将 socklen_t 定 义 
为 uint32_t。 


(2) 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 函数 有 4 
个 : accept、recvfrom、getsockname 和 getpeername。 这 4 个 函数 的 其 中 
两 个 参数 是 指 同 某 个 套 接 字 地 址 结构 的 指针 和 指 加 表示 该 结构 大 小 的 整 
数 变 量 的 指针 。 例 如 : 


struct sockaddr un cli; /* Unix domain */ 
socklen t len; 








len - sizeof(cli); /* len is a value */ 
getpeername(unixfd, (SA *) &cli, &len); 
/* len may have changed */ 


把 套 接 字 地 址 结构 大 小 这 个 参数 从 一 个 整数 改 为 指 问 菜 个 整数 变量 
的 指针 ， 其 原因 在 于 : 当 函 数 被 调用 时 ， 结 构 大 小 是 一 个 值 (value) , 
它 告诉 内 核 该 结构 的 大 小 ， 这 样 内 核 在 写 该 结构 时 不 至 于 越界 ， 当 函数 
返回 时 ， 结 构 大 小 又 是 一 个 结果 (result) ， 它 告诉 进程 内 核 在 该 结构 
中 完 竟 存储 了 多 少 信 息 。 这 种 类 型 的 参数 称 为 值 一 结果 (value-result) 
参数 。 图 3-8 展 示 了 这 个 情形 。 
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用 户 进程 





int* 
长 虔 
ERT 
地 址 结构 
(| 结果 
协议 地 址 


内 核 


图 3-8 ”从 内 核 到 进程 传递 套 接 字 地 址 结构 
我 们 将 在 图 4-11 中 看 到 一 个 值 -结果 参数 的 例子 。 








我 们 一 直 在 说 套 接 字 地 址 结构 是 在 进程 和 内 核 之 间 传 递 的 。 对 于 庄 
如 4.4BSD 之 类 的 实现 来 说 ， 由 于 所 有 套 接 字 函 数 都 是 内 核 中 的 系统 调 
用 ， 因 此 这 是 正确 的 。 然 而 在 另外 一 些 实现 特别 是 System VE, BF 





函数 只 是 作为 普通 用 户 进程 执行 的 库 函 数 ， 这 些 函 数 与 内 核 中 的 协议 栈 
如 何 接口 是 这 些 实现 的 细节 问题 ， 对 我 们 来 说 通 稼 没有 任何 影响 。 然 而 
为 简单 起 见 ， 我 们 继续 说 这 些 结构 通过 诸如 bind 和 connect 等 函数 在 进 
程 与 内 核 之 间 进 行 传递 。 我 们 将 在 C.1 节 看 到 ，System V 的 确 在 进程 和 
内 核 之 间 传 递 套 接 字 地 址 结构 ， 不 过 那 是 作为 流 消 息 (STREAMS 
message) 的 一 部 分 传递 的 。 


传递 套 接 字 地 址 结构 的 函数 还 有 两 个 : recvmsg 和 sendmsg (114.5 
节 ) 。 我 们 将 看 到 ， 它 们 套 接 字 地 址 结构 的 长 度 不 是 作为 函数 参数 而 是 
作为 结构 字段 传递 的 。 


当 使 用 值 _ 结 果 参 数 作为 套 接 字 地 址 结构 的 长 度 时 ， 如 果 套 接 字 地 
址 结构 是 固定 长 度 的 〈 见 图 3-6) ， 那 么 从 内 核 返回 的 值 总 是 那个 固定 
长 度 ， 例 如 IPv4 的 sockaddr_in 长 度 是 16，IPv6 的 sockaddr_in6 长 度 是 
28。 然 而 对 于 可 变 长 度 的 套 接 字 地 址 结构 〈 例 如 Unix 域 的 
sockaddr un) ， 返 回 值 可 能 小 于 该 结构 的 最 大 长 度 〈 见 图 15-2) 。 


在 网 络 编程 中 ， 值 一 结果 参数 最 常见 的 例子 是 所 返回 套 接 字 地 址 结 
构 的 长 度 。 不 过 本 书 中 我 们 还 会 磁 到 其 他 值 一 结果 参数 : 

















e select 函 数 中 间 的 3 个 参数 〈 见 6.3 节 ) ; 
getsockopt 函 数 的 长 度 参 数 〈 见 7.2 节 ) ; 
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fiti FA recvmsg PKI ZI, msghdr Zit Wmsg_namelen fill 
msg controllentÉ EZ 〈( 见 14.5 节 ) ; 
ifconf 结 构 中 的 ifc_len 字 段 〈 见 图 17-2) ; 

sysct1 了 国 数 两 个 长 度 参 数 中 的 第 一 个 〈 见 18.4 节 ) 。 


3.41 ^F WHERE 


考虑 一 个 16 位 整数 ， 它 由 2 个 字 节 组 成 。 内 存 中 存储 这 两 个 字 节 有 
两 种 方法 : 一 种 是 将 低 序 字 节 存储 在 起 始 地 址 ， 这 称 为 小 问 〈little- 
endian) 字 节 序 ， 妃 一 种 方法 是 将 高 序 字 市 存储 在 起 始 地 址 ， 这 称 为 大 
m (big-endian〉 字 节 序 。 图 3-9 展 示 了 这 两 种 格式 。 


内 存 地 址 增 大 方 疝 
cu 
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地 址 4 cwm 
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内 存 地 址 增 大 方 回 
图 3-9 16 位 整数 的 小 端 字 节 序 和 大 端 字 节 序 
在 该 图 中 ， 我 们 在 顶部 标明 内 存 地 址 增长 的 方向 为 从 右 到 左 ， 在 底 
部 标明 内 存 地 址 增长 的 方向 为 从 左 到 右 。 我 们 还 标明 最 高 有 效 位 (most 


significant ^ bit, MSB) 是 这 个 16 位 值 最 左边 一 位 ， 最 低 有 效 位 (least 
significant bit, LSB) 是 这 个 16 位 值 最 右边 一 位 。 


术语 “小 端 ” 和 “大 端 表 示 多 个 字 节 值 的 哪 一 端 〈 小 端 或 大 端 ) 存储 
在 该 值 的 起 始 地 址 。 














遗憾 的 是 ， 这 两 种 字 节 序 之 间 没 有 标准 可 循 ， 两 种 格式 都 有 系统 使 


用 。 我 们 把 茶 个 给 定 系统 所 用 的 字 节 序 称 为 主机 字 节 序 Chost 


byte 


order) 。 图 3-10 所 示 程 序 输 出 主机 字 节 序 。 





77 
intrelbyicordcr.c 
1 #incluce "unp.h" 
4 int 
3 mainí(:rt argc, char **argv) 
4 ( 
E union { 
€ short s; 
7 char c[sizeotichort)]; 
€ ] un; 
9 u.g - 0x0102; 
10 printfi'$5s: ", CEU_VENDOR_OS!; 
11 1f (sizeofishort) -- 2) ( 
12 i= (un.cIO] = 1 && un.cil] == 2) 
13 print {(*hig-endiar\n"); 
14 clec iE (un.cl0)] == 2 && un.cl[1) == 1; 
15 prinrf (*1i tle-encian\n"); 
16 else 
17 printf (*unxnown n" | ; 
18 ] eise 
15 printi (*sizeof (short! = %d\n". asizeof(shcrz)); 
exit ið}; 


intrc/byteorder.c 

















[3-10 w 
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我 们 在 一 个 短 整 数 变 量 中 存放 2 字 节 的 值 0x616062， 然 后 查看 它 的 两 
个 连续 字 节 c[6] (对 应 图 3-9 中 的 地 址 A〉 和 c[1] (对 应 图 3-9 中 的 地 


址 A+1) ， 以 此 确定 字 节 序 。 E 


字符 串 cPU_VENDOR_0S 是 由 GNU 的 autoconf 程 序 在 配置 本 书 中 的 软 
件 时 确定 的 ， 它 标识 CPU 类 型 、 厂 家 和 操作 系统 版 本 。 这 里 我 们 给 出 一 
些 例子 ， 它 们 是 这 个 程序 在 图 1-16 所 示 的 各 个 系统 上 运行 的 结果 。 


freebsd4 % byteorder 


i386-unknown-freebsd4.8: little-endian 


macosx % byteorder 


powerpc-apple-darwin6.6: big-endian 


freebsd5 % byteorder 


sparc64-unknown-freebsd5.1: big-endian 


aix % byteorder 
powerpc-ibm-aix.0: big-endian 


hpux % byteorder 
hppai.1-hp-hpuxi1.11: big-endian 


linux % byteorder 


1586-pc-linux-gnu: little-endian 


solaris % byteorder 
sparc-sun-solaris2.9: big-endian 
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我 们 已 讨论 了 16 位 整数 的 字 节 序 。 显 然 ， 同 样 的 讨论 也 适用 于 32 位 
整数 。 

当今 有 不 少 系统 能 够 在 系统 复位 时 (例如 MIPS 20000 ， 或 者 在 运 
行 之 时 (例如 Intel i860，， 在 大 端 字 节 序 和 小 端 字 节 序 之 间 切 换 。 


既然 网 络 协议 必须 指定 一 个 网 络 字 节 序 (network byte order) ， 作 
为 网 络 编程 人 员 的 我 们 必须 清楚 不 同 字 节 序 之 间 的 差异 。 举 例 来 说 ， 在 
每 个 TCP 分 节 中 都 有 16 位 的 端口 号 和 32 位 的 IPv4 地 址 。 发 送 协议 栈 和 接 
收 协议 栈 必 须 就 这 些 多 字 贡 字段 各 个 字 节 的 传送 顺序 达成 一 致 。 网 际 协 
议 使 用 大 端 字 节 序 来 传送 这 些 多 字 节 整数 。 


从 理论 上 说 ， 有 具体 实现 可 以 按 主机 字 节 序 存 储 套 接 字 地 址 结构 中 的 
各 个 字段 ， 等 到 需要 在 这 些 字 段 和 协议 首部 相应 字段 之 间 移 动 时 ， 再 在 
主机 字 节 序 和 网 络 字 节 序 之 间 进 行 互 转 ， 让 我 们 免 于 操心 转换 细节 。 然 
而 由 于 历史 的 原因 和 了 POSIX 规 范 的 规定 ， 套 接 字 地 址 结构 中 的 某 些 字段 
必须 按照 网 络 字 节 序 进 行 维护 。 因 此 我 们 要 关注 如 何在 主机 字 节 序 和 网 
络 字 节 序 之 间 相 互 转换 。 这 两 种 字 节 序 之 间 的 转换 使 用 以 下 4 个 函数 。 


include 




















uinti6 t htons(uinti6 t hosti6bitvalue); 


uint32 t htonl(uint32 t host32bitvalue); 











MERI: 网 络 字 节 序 的 值 





uint16_t ntohs(uinti6 t neti6bitvalue); 


uint32 t ntohl(uint32 t net32bitvalue); 





均 返 回 : 主机 字 节 序 的 值 











在 这 些 函 数 的 名 字 中 ，h 代 表 host，n 代 表 network，s 代 表 short，1 代 
表 long。short 和 long 这 两 个 称谓 是 出 自 4.2BSD 的 Digital VAX 实 现 的 历史 
产物 。 如 今 我 们 应 该 把 s 视 为 一 个 16 位 的 值 〈 例 如 TCP 或 UDP 端口 


号 ) ， 把 1 视 为 一 个 32 位 的 值 〈 例 如 IPv4 地 址 ) 。 事 实 上 即使 在 64 位 的 
Digital  _ Alpha 中， 尽管 长 整数 占用 64 位 ，hton1 和 ntoh1 函 数 操作 的 仍然 
是 32 位 的 值 。 


当 使 用 这 些 函数 时 ， 我 们 并 不 关心 主机 字 节 序 和 网 络 字 节 序 的 真实 
值 〈 或 为 大 端 ， 或 为 小 端 ) 。 我 们 所 要 做 的 只 是 调用 适当 的 函数 在 主机 
和 网 络 字 节 序 之 间 转 换 某 个 给 定 值 。 在 那些 与 网 际 协议 所 用 字 节 序 (大 
端 ) 相同 的 系统 中 ， 这 四 个 函数 通常 被 定义 为 空 宏 。 
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除了 协议 首部 中 各 个 字段 的 字 节 序 问题 外 ， 我 们 将 在 5.18 节 和 习题 
5.8 中 讨论 网 络 分 组 中 所 含 数据 的 字 节 序 问题 。 


至 此 我 们 尚未 定义 字 节 (byte) 这 个 术语 。 既 然 几 乎 所 有 的 计算 机 
系统 都 使 用 8 位 字 节 ， 我 们 就 用 该 术语 来 表示 一 个 8 位 的 量 。 大 多 数 因 特 
网 标准 使 用 八 位 组 Coctet) 这 个 术语 而 不 是 使 用 字 节 来 表示 8 位 的 量 。 
该 术语 起 始 于 TCP/IP 发 展 的 早期 ， 当 时 许多 早期 的 工作 是 在 诸如 DEC- 
10 这 样 的 系统 上 进行 的 ， 这 些 系 统 就 不 使 用 8 位 的 字 节 。 


因特网 标准 中 另外 一 个 重要 的 约定 是 位 序 。 在 许多 作为 因特网 标准 
的 RFC 文 档 中 ， 可 以 看 到 类 似 如 下 的 分 组 “图 ” 示 “〈 该 文本 图 出 自 RFC 
791， 是 IPv4 首 部 的 前 32 位 ) : 




















工 
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它 表 示 按 照 在 线 统 上 出 现 的 顺 友 排列 的 4 个 字 节 (32 个 位 〉， 最 左 
边 的 位 是 最 早出 现 的 最 高 有 效 位 。 注 意 位 序 的 编写 从 0 开始 ， 分 配给 最 
高 有 效 位 的 编号 为 0。 我 们 应 该 开始 熟悉 这 种 记 法 ， 以 方便 阅读 RFC 文 
档 中 的 协议 定义 。 


20 世 纪 80 年 代 在 网 络 编程 上 存在 一 个 通病 : 在 Sun 工 作 站 〈 大 端 
Motorola 68000) 上 开发 代码 时 没有 调用 这 4 个 函数 中 的 任何 一 个 。 这 些 
代码 在 这 些 工 作 站 上 都 能 运行 ， 但 是 当 移 植 到 小 端 机 器 〈 例 如 VAX 系 列 
机 ) 上 时 ， 便 根本 不 能 工作 。 





3.5 BEA ek BV 


BRA Ze TE E BOIS eR BCA PA ZA EMMI BRANT CE ERE, TAME 
数据 是 以 空 字符 结束 的 C 字 符 串 。 当 处 理 套 接 字 地 址 结构 时 ， 我 们 需要 
这 些 类 型 的 函数 ， 因 为 我 们 需要 操纵 诸如 他 地 址 这 样 的 字段 ， 这 些 字段 
可 能 包含 值 为 0 的 字 市 ， 却 并 不 是 C 字 符 串 。 以 空 字符 结尾 的 C 字 符 串 是 
p d 

理 的 。 


名 字 以 bp 〈 表 示 字 节 ) 开头 的 第 一 组 函数 起 源 于 4.2BSD， 几 乎 所 有 
现今 支持 套 接 字 函数 的 系统 仍然 提供 它们 。 名 字 以 mem《〈 表 示 内 存 ) F 
头 的 第 二 组 函数 起 源 于 ANSI C 标 准 ， 支 持 ANSI C 函 数 库 的 所 有 系统 都 


提供 它们 。 


我 们 首先 给 出 源 目 Berkeley 的 函数 ， 本 书 中 我 们 只 使 用 其 中 一 个 
bzero。 《我 们 使 用 它 是 因为 它 只 有 2 个 参数 ， 比 起 3 个 参数 的 
memset 函 数 来 要 容易 记 些 ， 这 在 前 边 已 解释 过 。) 其 他 两 个 函数 bcopy 
和 bcmp 你 也 许 会 在 现 有 的 应 用 程序 中 见 到 。 
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#include <strings.h> 
void bzero(void *dest, size_t nbytes); 
void bcopy(const void *src, void *dest, size_t nbytes); 


int bcmp(const void *ptri, const void *ptr2, size t nbytes); 
返回 : 若 相等 则 为 9， 和 否则 为 非 9 





这 是 我 们 首次 遇 到 ANSI C 的 const 限 定 词 。 就 它 在 这 儿 的 三 处 使 用 
来 说 ， 它 表示 所 限定 的 指针 (src、ptr1 和 ptr2) 所 指 的 内 容 不 会 被 函数 
更 改 。 换 名 话说， 函数 只 是 读 而 不 修改 由 const 指 针 所 指 的 内 存单 元 。 


bzero 把 目标 字 节 串 中 指定 数目 的 字 节 置 为 0。 我 们 经 稼 使 用 该 函数 
来 把 一 个 套 接 字 地 址 结构 初始 化 为 0。bcopy 将 指定 数目 的 字 节 从 源 字 节 
串 移 到 目标 字 节 串 。bcmp 比 较 两 个 任意 的 字 节 串 ， 知 相同 则 返回 值 为 
0， 否 则 返回 值 为 非 0。 











X y y DN x MZ 
我 们 随后 给 出 ANSI CER: 
#include <string.h> 
void *memset(void *dest, int c, size_t len); 
void *memcpy(void *dest, const void *src, size_t nbytes); 


int memcmp(const void *ptri, const void *ptr2, size_t nbytes); 
返回 : 若 相等 则 为 90， 和 否则 为 <9 或 >9 














memset 把 目标 字 节 上 串 指定 数 日 的 字 节 置 为 值 c。memcpy 类 似 bpcopy， 
不 过 两 个 指针 参数 的 顺序 是 相反 的 。 当 源 字 节 串 与 日 标 字 节 上 串 重 阁 
时 ，bcopy 能 够 正确 人 处理， 但 是 memcpy 的 操作 结果 却 不 可 知 。 这 种 情形 
下 必须 改 用 ANSI Clfjmenmove MŽ. 


记 住 memcpy 两 个 指针 参数 顺序 的 方法 之 一 是 记 着 它们 是 按照 与 C 中 
的 赋值 语句 相同 的 顺序 从 左 到 右 书写 的 : 


dest = src; 


























记 住 memset 最 后 两 个 参数 顺序 的 方法 之 一 是 认识 到 所 有 ANSI CH) 
memXXX 函 数 都 需要 一 个 长 度 参数 ， 而 且 它 总 是 最 后 一 个 参数 。 


memcmp 比 较 两 个 任意 的 字 节 串 ， 知 相同 则 返回 0， 否 则 返回 一 个 非 0 
值 ， 是 大 于 0 还 是 小 于 0 则 取决 于 第 一 个 不 等 的 字 节 : 如 果 ptr1 所 指 字 节 
串 中 的 这 个 字 节 大 于 ptr2 所 指 字 节 中 的 对 应 字 节 ， 那 么 大 于 0， 人 否则 小 于 
0。 我 们 的 比较 操作 是 在 假设 两 个 不 等 的 字 节 均 为 无 符号 字符 
(unsigned char) 的 前 提 下 完成 的 。 
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3.6 inet aton. inet addr/llinet ntoarfH 
在 本 节 和 下 一 节 ， 我 们 介绍 两 组 地 址 转换 函数 。 它 们 在 ASCII 字 符 


串 (这 是 人 们 偏爱 使 用 的 格式 ) 与 网 络 字 节 序 的 二 进 制 值 (这 是 存放 在 
套 接 字 地 址 结构 中 的 值 ) 之 间 转 换 网 际 地 址 。 


(1) inet_aton、inet_addr 和 inet_ntoa 在 点 分 十 进 制 数 串 ( 例 
如 “266.168.112.96”) 与 它 长 度 为 32 位 的 网 络 字 节 序 二 进 制 值 间 转换 
IPv4 地 址 。 你 可 能 会 在 许多 现 有 代码 中 见 到 这 些 函 数 。 


(2) 两 个 较 新 的 函数 inet _pton 和 inet_ntop 对 于 IPv4 地 址 和 IPv6 地 址 
都 适用 。 我 们 将 在 下 一 节 中 讲解 它们 并 在 全 书 中 使 用 它们 。 


#include «arpa/inet.h» 
int inet aton(const char *strptr, struct in addr *addrptr); 


返回 : 若 字 符 串 有 效 则 为 1， 和 否则 为 9 














in addr t inet addr(const char *strptr); 














返回 : 若 字符 串 有 效 则 为 32 位 二 进 制 网 络 字 节 序 的 IPv4 地 址 ， 和 否则 为 INADDR_NONE 

















char *inet ntoa(struct in addr inaddr); 














可 :指向 一 个 点 分 十 进 种 





z 


串 的 指针 














Es 





第 一 个 函数 inet_aton 将 strptr 所 指 C 字 符 串 转换 成 一 个 32 位 的 网 络 
字 节 序 二 进 制 值 ， 并 通过 指针 addrptr 来 存储 。 若 成 功 则 返回 1， 否 则 返 
回 0。 


inet_aton 函 数 有 一 个 没 写 入 正式 文档 中 的 特征 : 如 果 addrptr 指 针 
em 那么 该 函数 仍然 对 输入 的 字符 串 执 行 有 效 性 检查 ， 但 古 不 存储 任 
"ae 

inet_addr 进 行 相同 的 转换 ， 返 回 值 为 32 位 的 网 络 字 市 友 二 进 制 


值 。 该 函数 存在 一 个 问题 : 所 有 232 个 可 能 的 二 进 制 值 都 是 有 效 的 卫 地 址 
(从 .0 到 255.255.255.255) ， 但 是 当 出 错时 该 函数 返回 INADDR_NONE 凶 值 











(通常 是 一 个 32 位 均 为 1 的 值 ) 。 这 意味 着 点 分 十 进 制 数 串 
255.255.255.255 (这 是 IPv4 的 有 限 广播 地 址 ， 见 20.2 节 ) 不 能 由 该 函数 
处 理 ， 因 为 它 的 二 进 制 值 被 用 来 指示 该 函数 失败 。 


inet_addr 消 数 还 存在 一 个 潜在 的 问题 一些 手册 页 面 声明 该 函数 
出 错时 返回 -1 而 不 是 INADDR_NONE。 这 样 在 对 该 函数 的 返回 值 〈 一 个 无 符 
号 的 值 ) 和 一 个 负 常 值 (-1) 进行 比较 时 可 能 会 发 生 问 题 ， 有 具体 取决 于 
C 编 译 器 。 
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如 今 inet_addr 已 被 废弃 ， 新 的 代码 应 该 改 用 inet_aton 函 数 。 更 好 
的 办 法 是 使 用 下 一 节 中 介绍 的 新 函数 ， 它 们 对 于 IPv4 地 址 和 IPv6 地 址 都 
x& JH. 


inet_ntoa 函 数 将 一 个 32 位 的 网 络 字 节 厅 二 进 制 IPv4 地 址 转换 成 相 
应 的 点 分 十 进 制 数 串 。 由 该 函数 的 返回 值 所 指向 的 字符 串 驻 留 在 静态 内 
存 中 。 这 意味 着 该 函数 是 不 可 重 入 的 ， 这 个 概念 我 们 将 在 11.18 节 中 讨 
论 。 最 后 需要 留意 ， 该 函数 以 一 个 结构 而 不 是 以 指向 该 结构 的 一 个 指针 
作为 其 参数 。 


m 函数 以 结构 为 参数 是 罕见 的 ， 更 常见 的 是 以 指向 结构 的 指针 为 参 





3.7 inet ptonflinet ntoprÉ£ZX 


这 两 个 图 数 是 随 IPv6 出 现 的 新 函数 ， 对 于 IPv4 地 址 和 IPv6 地 址 都 适 
用 。 本 书 通 篇 都 在 使 用 这 两 个 函数 。 函 数 名 中 p 和 n 分 别 代 表 表 达 
(presentation〉 和 数值 (numeric) 。 地 址 的 表达 格式 通常 是 ASCII 字 符 
串 ， 数 值 格 式 则 是 存放 到 和 套 接 字 地 址 结构 中 的 二 进 制 值 。 


#include «arpa/inet.h» 
int inet pton(int family, const char *strptr, void *addrptr); 


返回 : 若 成 功 则 为 1， 若 输入 不 是 有 效 的 表达 格式 则 为 90， 若 出 错 则 为 -1 




















const char *inet ntop(int family, const void *addrptr, char *strptr, size t len); 





返回 : 若 成 功 则 为 指向 结果 的 指针 ， 若 出 错 则 为 NULL 








这 两 个 函数 的 family 参 数 既 可 以 是 AF_INET， 也 可 以 是 AF_INET6。 如 
果 以 不 被 支持 的 地 址 族 作 为 family 参 数 ， 这 两 个 函数 就 都 返回 一 个 错 


误 ， 并 将 errno 置 为 EAFNOSUPPORT。 


第 一 个 函数 尝试 转换 由 strptr 指 针 所 指 的 字符 串 ， 并 通过 addrptr 指 
针 存 放 二 进 制 结果 。 知 成 功 则 返回 值 为 1， 人 否则 如 果 对 所 指定 的 formily 而 
言 输入 的 字符 串 不 是 有 效 的 表达 格式 ， 那 么 返回 值 为 0。 


inet_ntop 进 行 相反 的 转换 ， 从 数值 格式 Caddrptr) 转换 到 表达 格 
XX (strptr) 。len 参 数 是 目标 存储 单元 的 大 小 ， 以 免 该 函数 流出 其 调用 
者 的 缓冲 区 。 为 有 助 于 指定 这 个 大 小 ， 在 <netinet/in.h> 头 文件 中 有 如 
PEX: 

#define INET_ADDRSTRLEN 16 /* for IPv4 dotted-decimal */ 

#define INET6 ADDRSTRLEN 46 /* for IPv6 hex string */ 





如 果 len 太 小 ， 不 足以 容纳 表达 格式 结果 (包括 结尾 的 空 字 符 ) ， 
那么 返回 一 个 空 指针 ， 并 置 errno 为 ENOSPC。 
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inet_ntop 函 数 的 strptr 参 数 不 可 以 是 一 个 空 指针 。 调 用 者 必须 为 目 
mde 0 
IK EHE - 


图 3-11 总 结 了 这 一 节 和 上 一 市 中 我 们 讨论 过 的 5 个 函数 。 





m 
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图 3-11 hk £e eR Be) BE 
示例 


即使 你 的 系统 还 不 文 持 IPv6， 你 也 可 以 采取 下 列 措施 开始 使 用 这 些 
新 函数 ， 即 用 代码 


inet pton(AF INET, cp, &foo.sin addr); 


RERI 


foo.sin_addr.s_addr = inet_addr (cp); 


再 用 代码 


char str[INET ADDRSTRLEN]; 
ptr - inet ntop(AF INET, &foo.sin addr, str, sizeof(str)); 


代 蔡 代码 


ptr = inet ntoa(foo.sin addr); 
图 3-12 给 出 了 只 支持 IPv4 的 inet_pton 函 数 的 简单 定义 。 类 似 地 ， 图 
3-13 给 出 了 只 支持 IPv4 的 inet_ntop 函 数 的 简化 版 本 。 
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一 (人 1eeier pt ipv4.c 
10 int 


11 inet ptonrlint Family, const char *strpt-, void *addrpt-) 
12 | 

15 if (farily == AP INED) ( 

14 struct in_addr in val; 

15 if ‘inet_atonistrptr, &in val!) ( 

16 memcpy(add-ptr, &in val, sizeof(struct in addr!);: 
17 return íl); 

18 

19 return (0) , 

20 ) 

21 errno = BAPNOSUPPORT; 

22 return |-.!; 

25 ) 


libfreefine! ptor ipid.c 
图 3-12 ” 仅 支 持 IPv4 的 inet_pton 简 化 版 本 


l'bfree^net. MoP_iPpv4.c 
€ const char + 
2 inct ntor;in- family, const void *addrstr, char *strptr, 3:ze_t len! 


10 | 

11 const u_char "p = (const u chzr *) addrpt-; 
12 if (family == AF_TNET) | 

13 char terp|INET ADDRSTRLEN] ; 

14 snprinLf(tenp, sizeof (temp), "*d.3d.4d.40°, cfd), pl1], pI2], pf3l): 
15 if (Etrlen(temp) >= len) { 

16 e-rnz = ENOG?C; 

17 return [NULLI ; 

18 } 

19 strcpv(strrtr, temp): 

20 return [strptr; 

21 } 

22 errno ~ EAFNCSUPLORT; 


23 return (NULL): 


libfreeinet ntop ipva.c 
图 3-13 ” 仅 支 持 IPv4 的 inet_ntop 简 化 版 本 
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3.8 sock ntop^4l 4H X PR ZA 


inet_ntop 的 一 个 基本 问题 是 : 它 要 求 调用 者 传递 一 个 指 问 某 个 二 
进 制 地 址 的 指针 ， 而 该 地 址 通常 包含 在 一 个 套 接 字 地 址 结构 中 ， 这 就 要 
求 调 用 者 必须 知道 这 个 结构 的 格式 和 地 址 族 。 这 就 是 说 ， 为 了 使 用 这 个 
函数 ， 我 们 必须 为 IPv4 编 写 如 下 代码 : 


struct sockaddr in addr; 
inet ntop(AF INET, &addr.sin addr, str, sizeof(str)); 





或 为 IPv6 编 写 如 下 代码 : 


struct sockaddr in6 addr6; 
inet ntop(AF INET6, &addr6.sin6 addr, str, sizeof(str)); 


这 就 使 得 我 们 的 代码 与 协议 相关 了 。 

为 了 解决 这 个 问题 ， 我 们 将 目 行 编写 一 个 名 为 sock_ntop 的 函数 ， 
它 以 指 癌 茶 个 套 接 字 地 址 结构 的 指针 为 参数 ， 碍 看 该 结构 的 内 部 ， 然 后 
调用 适当 的 函数 返回 该 地 址 的 表达 格式 。 


#include "unp.h" 





char *sock ntop(const struct sockaddr *sockaddr, socklen t addrlen); 





返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 











这 吏 是 本 书 通 篇 使 用 的 我 们 目 己 定义 的 函数 〈 非 标准 系统 函数 ) 的 
说 明 形 式 : 包围 函数 原型 和 返回 值 的 方 框 是 虚线 。 开 头 包 括 的 头 文件 通 
tn ese) E cil junp.h. 


sockaddr 指 向 一 个 长 度 为 addrlen 的 套 接 字 地 址 结构 。 本 函数 用 它 自 
人 


注意 : 对 结果 进行 静态 存储 导致 该 函数 不 可 重 入 且 非 线程 安全 。 这 
些 概念 我 们 将 在 11.18 节 中 进一步 讨论 。 对 于 该 函数 我 们 作 这 样 的 设计 








决 集 是 为 了 让 本 书 中 的 简单 例子 方便 地 调用 它 。 


表达 格式 束 是 在 一 个 IPv4 地 址 的 点 分 十 进 制 数 串 格式 之 后 ， 或 者 在 
一 个 插 以 方 括号 的 IPv6 地 址 的 十 六 进 制 数 串 格 式 之 后 ， 跟 一 个 终止 符 
(我 们 使 用 一 个 分 号 ， 类 似 于 URL 语 法 ) ， 再 跟 一 个 十 进 制 的 端口 号 ， 
最 后 跟 一 个 空 字符 。 因 此 ， 组 冲 区 大 小 对 于 IPv4 至 少 为 INET_ADDRSTRLEN 
加 上 6 个 字 节 (16-6222) ， 对 于 IPv6 至 少 为 INET6_ADDRSTRLEN 加 上 8 个 字 
节 (46+8=54) 。 


13-14" RANJA H Se BU ANAR_INETI HE PS USA. 
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lib/scck ntop.c 

5 char * 
€ scck ntcp(íoonst struct sockaddr *sa. socklen t salen! 
5 ( 
£ char portotr [8]; 
$ stetic char str[129]; /* Unix domain is largest */ 
10 Switch isa-»sa family) { 
11 case AF_INET: { 
12 struct sockaddr in “sin = (struct sockaddr in *) 3a; 
13 if (inet_ntop‘AF_INET, &sin-»sir accr, str, sizeuf(str)) == NULL) 
14 return (NULL: ; 
15 if (ntohs;sin-»sin port) l= 0) | 
16 anprintf iportatr, sizecf(portstr), ":à3", 
1T ntchs (sin-»sin port)); 
18 streat (str, pcrtstr); 
19 i 
20 -zeturn[str]|, 


图 3-14 我们 自己 的 sock_ntop 函 数 
我 们 还 为 操作 套 接 字 地 址 结构 定义 了 其 他 几 个 函数 ， 它 们 将 简化 我 
们 的 代码 在 IPv4 与 IPv6 之 间 的 移植 。 


#include "unp.h" 


int sock bind wild(int sockfd, int family); 





返回 : 若 成 功 则 为 9， 知 出 错 则 











为 -1 
int sock cmp addr(const struct sockaddr *sockaddr1, 
const struct sockaddr *sockaddr2, socklen t addrlen); 
返回 : 若 地 址 为 同一 协议 族 且 相同 则 为 90， 否则 为 非 9 
int sock cmp port(const struct sockaddr *sockaddri, 
const struct sockaddr *sockaddr2, socklen t addrlen); 
返回 : 若 地 址 为 同一 协议 族 且 端口 相同 则 为 09， 否则 为 非 9 


int sock get port(const struct sockaddr *sockaddr, socklen t addrlen); 

































































返回 : XPJJIPvAR&IPv6edbhEWg3EfAS LI, AM 




















为 -1 
char *sock ntop host(const struct sockaddr *sockaddr, socklen t addrlen); 

返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 
void sock set addr(const struct sockaddr *sockaddr, Socklen t addrlen, void 
* . 
ptr); 


void sock set port(const struct sockaddr *sockaddr, socklen t addrlen, int port); 


void sock set wild(struct sockaddr *sockaddr, socklen t addrlen); 
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sock_bind_wild 将 通 配 地 址 和 一 个 临时 端口 捆绑 到 一 个 套 接 
。 sock_cmp_addr 比 较 两 个 套 接 字 地 址 结构 的 地 址 部 
sock_cmp_port 则 比较 两 个 套 接 字 地 址 结构 的 端口 号 部 
分 。sock_get_port 只 返回 端口 号 。sock _ntop_ eT een: 
构 中 的 主机 部 分 转换 成 表达 格式 〈 不 包括 端口 号 ) o sock set addri 
一 个 套 接 字 地 址 结构 中 的 地 址 部 分 置 为 ptr 指 针 所 指 的 
值 ; sock_set_port 则 只 设置 一 个 套 接 字 地 址 结构 的 端口 号 部 
分 。sock_set _wild 把 一 个 套 接 字 地 址 吉 构 中 的 地 址 部 分 置 为 通 配 地 
址 。 跟 本 书 所 有 函数 一 样 ， 我 们 也 为 那些 返回 值 不 是 void 的 上 述 函 数 提 
供 了 包 囊 函数 ， 它 们 的 名 字 以 s 开 头 ， 我 们 的 程序 通常 调用 这 些 包 囊 函 
数 。 我 们 个 给 出 所 有 这 些 函 数 的 源 代 码 ， 不 过 它们 是 免费 可 得 的 〈 见 前 


Fi 


> Sp dt 


N 








3.9 readn. writen#ll readline pk ZW 


字 节 流 套 接 字 〈 例 如 TCP 套 接 字 ) 上 的 read 和 write 函数 所 表现 的 行 
为 不 同 于 通常 的 文件 WO。 字 节 流 套 接 字 上 调用 read 或 write 输 入 或 输出 
的 字 节 数 可 能 比 请 求 的 数量 少 ， 然 而 这 不 是 出 错 的 状态 。 这 个 现象 的 原 
因 在 于 内 核 中 用 于 套 接 字 的 缓冲 区 可 能 已 达到 了 极限 。 此 时 所 需 的 是 调 
用 者 再 次 调用 read 或 write 函数 ， 以 输入 或 输出 剩余 的 字 节 。 有 些 版 本 
的 Unix 在 往 一 个 管道 中 写 多 于 4096 字 节 的 数据 时 也 会 表现 出 这 样 的 行 
为 。 这 个 现象 在 read 一 个 字 节 流 套 接 字 时 很 常见 ， 但 是 在 write 一 个 字 
节 流 套 接 字 时 只 能 在 该 套 接 字 为 非 阻 寨 的 前 提 下 才 出 现 。 尺 管 如 此 ， 为 
预防 万 一 ， 不 让 实现 返回 一 个 不 足 的 字 节 计数 值 ， 我 们 总 是 改 为 调 
用 writen 国 数 来 取代 write 国 数 。 


我 们 提供 的 以 下 3 个 函数 是 每 当 我 们 该 或 写 一 个 字 节 流 套 接 字 时 总 
要 使 用 的 函数 。 


#include "unp.h" 
































ssize t readn(int filedes, void *buff, size t nbytes); 
ssize_t written(int filedes, const void *buff, size t nbytes); 
ssize t readline(int filedes, void *buff, size t maxlen); 


均 返 回 : 读 或 写 的 字 节 数 ， 若 出 错 则 为 -1 
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图 3-15 给 出 了 readn 函 数 ， 图 3-16 给 出 了 writen 函 数 ， 图 3-17 给 出 了 
readline Á% 


libreadn.c 


1 fineluce "unp.h* 
2 ssize 上 /^ Read "n* bytes from a descripoor, Af 
3 resdn[in- fd, void *vptr, size = n) 
E 
5 cize = nleft; 
€ Saizc t nrcad; 
q czaar "ptr; 
E prr = vptr; 
e nleft. = n; 
19 waile inleft > o) { 
11 if ( (nread = read(fd, ptr, nleft,;) < Ù) 
12 i= [srrnc == EINTR; 
13 nread - 2, /* end call readi} again */ 
14 else 
15 return(-1): 
16 ) eise =£ (nread == 0) 
17 brsak; /* HOF */ 
18 nlctt -= nrcad; 
19 ptr += nread; 
20 } 
21 ret arnin - nleft); /? relurn >a A */ 
22 | 
libzreudi.i 
图 3-15  readnPÉ Zt: 从 一 个 描述 符 读 n 字 节 
lib ^writen.c 
1 include unp ,ns 
2 zcize = /* Write "n" bytes to a deccrictor. +; 
3 writen(int fd, sonst void *vptr. size = 3) 
4( 
5 size t eft; 
6 coizc t rwrittcn; 
7 const char *p-r; 
8 ptr - vptr; 
s nleft = r; 
16 while (nlctt > 0) ( 
11 if i imwritben = write (fd, ptr, refl)) es Ob [ 
12 if (nwritter < C 55 errno == EINTR) 
13 nwritten = C: /* and call writs() again */ 
14 elec 
15 recurn(-1); {* error 4/ 
lé } 
17 lafz -a nwritten; 
16 ptr += nwritten; 
1s ) 
20 return (n): 
21 ] 
Fi writen.c. 


图 3-16 ”writen 函 数 : 往 一 个 描述 符 写 n 字 节 


89 


test/readl'uel.c 





L H8:nclude "urp.h" 
2 /* PAINFULLY SLOW VERSION -- example only */ 
3 ssize t 


4 readline(int fd, void *vpzr. size t maxlen! 

st 

6 ssize t 3, rc; 

7 char c, *ptr; 

8 ptr - vptr; 

y for (n = 1; n < maxlen; n+=+) ( 

10 again: 

11 if | irc - resd(f2, uc, 11) -- 1) { 

iz ^*pzrtt = C; 

Li if ic == 'ir') 

14 areak; /* newline is stored, like fgets() */ 
is ) else if (re == C) * 

16 *pir s 0: 

Li recumn(n - 1}; /* BOF, n - 工 bytes were read */ 
18 } alse | 

19 it (errno == EINTR) 

20 goa o0 again; 

21 recum(-21): /* error, errno set by rcaa(! */ 
22 ) 

23 ) 

24 ‘ptr = 0; f* cull terrinace like foets() */ 
25 return in): 

26 ] 


tesvreadlinel. 
图 3-17 readline žit: 从 一 个 描述 符 读 文本 行 ， 一 次 1 个 字 节 


上 述 三 个 函数 碍 找 EINTR 错 误 〈 表 示 系 统 调用 被 一 个 捕获 的 信号 中 
断 ， 我 们 将 在 5.9 节 中 更 详细 地 讨论 ) ， 如 果 发 生 该 错误 则 继续 进行 读 
或 写 操 作 。 既 然 这 些 函 数 的 作用 是 避免 让 调用 者 来 处 理 不 足 的 字 节 计数 
值 ， 那 么 我 们 就 地 处 理 该 错误 ， 而 不 是 强迫 调用 者 再 次 调用 readn 
BüwritenPA ZA. 


在 14.3 节 我 们 会 提 到 ，Ms6_wWAITALL 标 志 可 随 recv 函 数 一 起 使 用 来 取 
代 独 立 的 readn 函 数 。 
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注意 ， 这 个 readline 函 数 每 读 一 个 字 节 的 数据 就 调用 一 次 系统 的 
read 函 数 。 这 是 非常 低 效率 的 ， 为 此 我 们 特意 在 代码 中 注 
BH*PAINFULLY SLOW (极端 地 慢 ) ”。 当 面临 从 某 个 套 接 字 读 入 文本 
行 这 一 需求 时 ， 改 用 标准 WO 函数 库 ( 称 为 stdio〉 相当 诱 人 。 我 们 将 在 
14.8 节 中 详细 讨论 这 种 方法 ， 不 过 预先 指出 这 是 种 危险 的 方法 。 解 决 本 
性 能 问题 的 stdio 绥 冲 机 制 却 引发 许多 后 勤 问 题 ， 可 能 导致 在 应 用 程序 中 


存在 相当 隐蔽 的 缺陷 。 完 其 原因 在 于 stdio 缓 冲 区 的 状态 是 不 可 见 的 。 为 
便于 深入 解释 ， 让 我 们 考虑 客户 和 服务 器 之 间 的 一 个 基于 文本 行 的 协 
议 ， 而 使 用 该 协议 的 多 个 客户 程序 和 服务 器 程序 可 能 是 在 一 段 时 间 内 先 
后 实现 的 (这 种 情形 其 实 相 当 普 裔 ， 举 例 来 说 ， 按 照 HTTP 规 范 独 立 编 
写 的 Web 浏 览 器 程序 和 Web 服 务 吉 程序 就 相当 之 多 ) 。 良 好 的 防御 性 编 
程 (defensive programming) 技术 要 求 这 些 程序 不 仅 能 够 期 望 它 们 的 对 
端 程 序 也 遵循 相同 的 网 络 协议 ， 而 且 能 够 检查 出 未 预期 的 网 络 数据 传送 
并 加 以 修正 (恶意 企图 自然 也 被 检查 出 来 )， 这 样 使 得 网 络 应 用 能 够 从 
存在 问题 的 网 络 数据 传送 中 恢复 ， 可 能 的 话 还 会 继续 工作 。 为 了 提升 性 
能 而 使 用 stdio 来 缓冲 数据 违背 了 这 些 目 标 ， 因 为 这 样 的 应 用 进程 在 任何 
时 刻 都 没有 办 法 分 辨 stdio 绥 冲 区 中 是 否 持 有 未 预期 的 数据 。 


基于 文本 行 的 网 络 协议 相当 多 ， 壁 如 SMTP、HTTP、FTP 的 控制 连 
接 协 议 以 及 finger 等 。 因 此 针对 文本 行 操作 这 一 需求 一 再 被 提出 。 然 而 
我 们 的 建议 是 依照 缓冲 区 而 不 是 文本 行 的 要 求 来 考虑 编程 。 编 写 从 缓冲 
Pe EE 当期 待 一 个 文本 行 时 ， 就 查看 缓冲 区 中 是 否 含 
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图 3-18 给 出 了 readline 函 数 的 一 个 较 快 速 版 本 ， 它 使 用 自己 的 而 不 
是 stdio 提 供 的 绥 冲 机 制 。 其 中 重要 的 是 readline 内 部 缓冲 区 的 状态 是 又 
露 的， 这 使 得 调用 者 能 够 查看 缓冲 区 中 到 底 收 到 了 什么 。 即 使 使 用 这 个 
特性 ，readline 仍 可 能 存在 问题 ， 具 体 见 6.3 节 。 诸 如 select 等 系统 函数 
仍然 不 可 能 知道 readline 使 用 的 内 部 缓冲 区 ， 因 此 编写 不 严谨 的 程序 很 
可 能 发 现 自 己 在 select 上 等 待 的 数据 早已 收 到 并 存放 在 readline 的 绥 冲 
区 中 了 。 由 于 这 个 原因 ， 泥 合 调用 readn 和 readline 不 会 像 了 预期 的 那样 
工作 ， 除 非 把 readn 修 改 成 也 检查 该 内 部 缓冲 区 。 





+ #inclide np -hs 
2 etatic int read ont; 
3 static char *read ptr; 
4 win .ir: char read uf [MAXLTNE] ; 


5 static ssizc t 
6 my read(int fd, char *rtr) 
7{ 


lib/readline.c 


8 if izeai znt «- 0) ( 

9 again: 

10 i£ ( (read ont - rea$i[fd, read buf, sizeof(resd buf))) < 0) { 
aL if (errno — EINIR) 

12 goto again; 

13 returr.(-1); 

14 } else it |rezd cn- == 0) 

15 retaure (oi; 

16 read ptr = resd buf; 

17 ) 

18 read cnt--; 

19 *ptr = *read_ptre+; 

20 recurní1]; 

21 } 

22 ssizs t 

23 rcadlirciint td, void *vptr, sizc t maxlen) 

24 ( 

25 seize t n, rc; 

26 char €, *ptr; 

27 ptr = vtr; 

2a far in = 3; n < maxlen; nes) ( 

29 iz ( (rc = my read(fd, &c;) == 1) 1 

50 *ptr-* = C; 

3L if (c -- '\n') 

32 break; /* newline is stored, like fgets() */ 
53 ) eise if (rc == 0 { 

34 fete = Or 

35 returrí(n - 1); /* EOF, n - 1 bytes were read */ 
36 } else 

37 returr( 1); /* error, erro set by read() */ 
3a ) 

59 *ptr = 3; /* null terminate like fgets() */ 
40 return/n]; 

41 } 

42 ssizc_t 


43 read] inebof (vaid **upteprr) 
4a f 


45 if (read -nt| 

46 *vpcrptr = reed ptr; 
47 return/read cnt); 

48 ) 


图 3-18 


readline 函 数 的 改进 版 
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dibéreaaliae.c 


2-21 内 部 函数 my_read 每 次 最 多 读 MAXLINE 个 字符 ， 然 后 每 次 返回 
— FFF S 


29 readline% FY ME— 46 4L 3 H]my. read] HB tread. 


42-48 readlinebuf 这 个 新 函数 能 够 展露 内 部 绥 冲 区 的 状态 ， 便 于 
调用 者 得 看 在 当前 文本 行 之 后 是 否 收 到 了 新 的 数据 。 


但 是 ， 在 readline.c 中 使 用 静态 变量 实现 跨 相继 函数 调用 的 状态 信 
息 维护 ， 其 结果 是 这 些 函 数 变 得 不 可 重 入 或 者 说 非 线 程 安全 了 。 我 们 将 
在 11.18 节 和 26.5 节 中 讨论 这 一 点 。 在 图 26-11 中 我 们 将 使 用 特定 于 线程 
的 数据 开发 一 个 线程 安全 的 版 本 。 





3.10 ”小 结 


套 接 字 地 址 结构 是 每 个 网 络 程序 的 重要 组 成 部 分 。 我 们 分 配 它们 ， 
填写 它们 ， 把 指向 它们 的 指针 传递 给 各 个 人 套 接 字 函 数 。 有 时 我 们 把 指 癌 
这 些 结构 之 一 的 指针 传递 给 一 个 套 接 字 函数 ， 并 由 该 函数 填写 结构 内 
容 。 我 们 总 是 以 引用 形式 来 传递 这 些 结构 (也 就 是 说 ， 我 们 传递 的 是 指 
向 结构 的 指针 ， 而 不 是 结构 本 身 ) ， 而 且 将 结构 的 大 小 作为 男 外 一 个 参 
数 来 传递 。 当 一 个 套 接 字 函 数 寅 要 填写 一 个 结构 时 ， 该 结构 的 长 上 度 也 以 
人 
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套 接 字 地 址 结构 是 目 定 义 的 ， 因 为 它们 总 是 以 一 个 标识 其 中 所 仿 地 
址 之 协议 族 的 字段 开头 。 文 持 长 度 可 变 套 接 字 地 址 结构 的 较 新 实现 在 开 
头 还 包含 一 个 长 度 字 段 ， 它 含有 整个 结构 的 长 度 信息 。 


在 表达 格式 (我 们 平时 书写 的 格式 ， 例 如 ASCII 字 符 串 〉 和 数值 格 
式 ( 存 放 到 套 接 字 地 址 结构 中 的 格式 ) 之 间 转 换 P 地 址 的 两 个 函数 
是 inet_pton 和 inet_ntop。 虽 然 我 们 将 在 稍 后 的 章节 中 使 用 这 两 个 函 
数 ， 但 是 必须 说 明 ， 它 们 是 协议 相关 的 。 操 纵 套 接 字 地 址 结构 的 更 好 方 
法 是 把 它们 作为 不 透明 对 象 ， 仅 知道 指 癌 结构 的 指针 和 结构 的 大 小 而 
已 。 按 照 这 种 方法 ， 我 们 开发 了 一 组 名 字 以 sock_ 开 头 的 函数 ， 协 助 实 
现 程序 的 协议 无 关 性 。 我 们 将 在 第 11 章 中 使 用 getaddrinfo 和 
getnameinfor alse KIX EM MCKLANH KK. 


TCP 套 接 字 为 应 用 进程 提供 了 一 个 字 节 流 ， 它 们 没有 记录 标记 。 从 
TCP 套 接 字 read 的 返回 值 可 能 比 我 们 请 求 的 数量 少 ， 但 是 这 不 表示 发 生 
了 错误 。 为 帮助 读 或 写 一 个 字 节 流 ， 我 们 开发 了 readn、writen 和 
readline 这 3 个 函数 ， 并 在 全 书 中 广泛 使 用 。 对 于 文本 行 交 互 的 应 用 来 
说 ， 程 序 应 该 按照 操作 缓冲 区 而 非 按照 操作 文本 行 来 编写 。 

















习题 


3.1 为 什么 诺 如 套 接 字 地 址 结构 的 长 度 之 类 的 值 -结果 参数 要 用 指 
针 来 传递 ? 


32 ”为 什么 readn 和 writen 函 数 都 将 void * 型 指针 转换 为 char * 型 
指针 ? 


3.3 inet_aton 和 inet_addr 函 数 对 于 接受 什么 作为 点 分 十 进 制 数 
IPv4 地 址 串 一 直 相 当 随 意 : 允许 由 小 数 点 分 隔 的 1 一 4 个 数 ， 也 人 允许 由 一 
个 前 导 的 6x 来 指定 一 个 十 六 进 制 数 ， 还 允许 由 一 个 前 导 的 6 来 指定 一 个 
八进制 数 。 (RGIS FT telnet 0xe 来 检验 一 下 这 些 特性 。) inet ptonff 
数 对 IPv4 地 址 的 要 求 却 严格 得 多 ， 明 确 要 求 用 三 个 小 数 点 来 分 隔 四 个 在 
0 一 255 之 间 的 十 进 制 数 。 当 指定 地 址 族 为 AF_INET6 时 ，inet_pton 不 允许 
站 定点 分 十 进 制 数 地 址 ， 不 过 有 人 可 能 争辩 说 应 该 允许 ， 返 回 值 束 是 对 
应 这 个 点 分 十 进 制 数 串 的 IPv4 映 射 的 IPv6 地 址 ( 见 图 A-10)。 











试 写 一 个 名 为 inet_pton_loose 的 函数 ， 它 能 处 理 如 下 情形 : 如 果 地 
址 族 为 AF_INET 且 ;inet_pton 返 回 0， 那 就 调用 inet_aton 看 是 否 成 功 ; 25 
似 地 ， 如 果 地 址 族 为 AF_INET6 且 ;inet_pton 返 回 0， 那 就 调用 inet_aton 看 
是 否 成 功 ， 知 成 功 则 返回 其 IPv4 映 射 的 IPv6 地 址 。 
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第 4 章 ”基本 TCP 套 接 字 编程 


4.1 概述 


本 章 讲解 编写 一 个 完整 的 TCP 客 户 /服务 器 程序 所 需要 的 基本 套 接 字 
函数 。 讲 解 完 即将 使 用 的 所 有 基本 套 接 字 函数 之 后 ， 我 们 就 在 下 一 章 中 
开发 这 个 客户 /服务 器 程序 。 我 们 将 围绕 该 客户 /服务 器 程序 展开 本 书 ， 
并 多 次 对 它 加 以 改进 (图 1-12 和 图 1-13) 。 


我 们 还 讲解 并 发 服务 器 ， 它 是 在 同时 有 大 量 的 客户 连接 到 同一 服务 
器 上 时 用 于 提供 并 发 性 的 一 种 常用 Unix 技 术 。 每 个 客户 连接 都 迫使 服务 
器 为 它 派生 (fork) 一 个 新 的 进程 。 本 章 中 我 们 只 考虑 使 用 fork 实 施 的 
每 客户 单 进程 模型 ， 然 而 当 在 第 26 章 讨论 线程 时 ， 我 们 将 考虑 称 为 每 客 
户 单线 程 的 另外 一 种 模型 。 


图 4-1 给 出 了 在 一 对 TCP 客 户 与 服务 器 进程 之 间 友 生 的 一 些 典 型 事件 
的 时 间 表 。 服 务 器 首先 启动 ， 稍 后 人 条 个 时 刻 客户 局 动 ， 它 试图 连接 到 服 
务 器 。 我 们 假设 客户 给 服务 器 发 送 一 个 请 求 ， 服 务 器 处 理 该 请 求 ， 并 且 
给 客户 发 回 一 个 啊 应 。 这 个 过 程 一 直 持 续 下 去 ， 直 到 客户 关闭 连接 的 客 
户 端 ， 从 而 给 服务 器 发 送 一 个 EOF 〈 文 件 结束 ) 通知 为 止 。 服 务 器 接着 
也 关闭 连接 的 服务 器 端 ， 然 后 结束 运行 或 者 等 竺 新 的 客户 连接 。 




















TCPIIE 45 3€ 


| socket {| | 


f Bi Fe] entis L1 2izá() 
















TCP$ P^ — ARLES 
| socket () | 客户 还 接 到 达 
E xcii 
connect () po ES 
( TCP—EHEg-F ) 
| write0 j 38 egy 

if 1 eres read(} -< 
| | 
| | 处 理 请 求 
| | 
| Mum CUR - 


一 一 一 一 





| 





close () X feto 


o ERR 


close {} 


图 4-1 基本 TCP 客 户 / 服 务 器 程序 的 套 接 字 函数 


4.2 socket Pi AW 


为 了 执行 网 络 VO， 一 个 进程 必须 做 的 第 一 件 事情 就 是 调用 socket 
函数 ， 指 定期 望 的 通信 协议 类 型 〈 使 用 IPv4 的 TCP、 使 用 IPv6 的 UDP、 
Unix 域 字 节 流 协议 等 ) 。 
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#include <sys/socket.h> 
int socket(int family, int type, int protocol); 











BE: 车 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 -1 























其 中 family 参 数 指明 协议 族 ， 它 是 图 4-2 中 所 示 的 某 个 常 值 。 该 参数 
也 往往 被 称 为 协议 域 。type 参 数 指明 套 接 字 类 型 ， 它 是 图 4-3 中 所 示 的 某 
个 第 值 。protocol 参 数 应 设 为 图 4-4 所 示 的 某 个 协议 类 型 党 值 ， 或 者 设 为 
0， 以 选择 所 给 定 family 和 type 组 合 的 系统 默认 值 。 


IPv4 协 议 
IPv6 协 议 
Unix 域 协议 【《 见 第 15 章 ) 
路 由 套 接 字 《 见 第 18 章 ) 
密 钥 套 接 字 《【 见 第 19 章 ) 





图 4-2 socket 函数 的 fomily 常 值 


SOCK STREAM 流 套 接 字 


RARER 


SOCK SEOPACKET 有 序 分 组 套 接 字 
SHIRE 原始 套 接 宁 





图 4-3 ”socket 函 数 的 type 常 值 


IPPROTO_TCP TCP 传 输 协议 
IPPROTO UDP UDP 传 输 协 议 
TPPROTO SCTP SCTP 传 输 协 议 





图 4-4 ， socket 函数 AF_INET 或 AF_INET6 的 protocol 铺 值 


并 非 所 有 僚 接 字 family 与 type 的 组 合 部 是 有 效 的 ， 图 4-5 给 出 了 一 些 
有 效 的 组 合 和 对 应 的 真正 协议 。 其 中 标 为 “是 ”的 项 也 是 有 效 的 ， 但 还 没 
有 找到 便捷 的 缩 略 词 。 而 空白 项 则 是 无 效 组 合 。 


AF INET AF INETE AF LOCAL AP ROUTE 


SOCK SEQPACK3T 





SOCK RA 


图 4-5 socket 函数 中 family 和 type 参 数 的 组 合 


fH een 数 第 一 个 参数 的 相应 的 PF_xxx 常 值 ， 
我 们 在 本 节 末 讲述 


Bo oss (POSIX 名 称 ) 被 代 之 为 AF_UNIX (历史 上 的 
Unix 域 名 称 ) ， 在 第 15 章 中 我 们 再 做 详细 说 明 。 


参数 family 和 type 还 有 其 :他 值 。 例如 4.4BSD 支 持 的 family 参 数值 还 
有 AF_NS (Xerox NS 协议 ， 常 称 为 XNS) 和 AF_ISO (OSI 协议 ) ， 不 过 现 
在 很 少 有 人 使 用 这 些 协 议 。 Pond NS 协议 和 OSI 协议 都 实现 了 对 


SOCK_SEQPACKET 这 个 type 参 数值 的 支持 ， 我 们 将 在 9.2 节 讲解 该 值 在 SCTP 
中 的 使 用 。 然 而 TCP 是 一 个 字 节 流 协 议 ， 仅 文 持 SocK_STREAM 套 接 字 。 


Linux 支 持 一 个 新 的 套 接 字 类 型 sock_pPACKET， 它 与 图 2-1 中 的 BPF 和 
DLPI 类 似 ， 支 持 对 数据 链 路 的 访问 ， 有 具体 将 在 第 29 章 中 叙述 。 


密 钥 套 接 字 AF_KEY 比 较 新 ， 用 于 文 持 基于 加 密 的 安全 性 。 跟 路 由 套 
接 字 CAF ROUTE) 是 内 核 中 路 由 表 的 接口 这 种 方式 类 似 ， 密 钥 套 接 字 是 
与 内 核 中 密 钥 表 的 接口 。 密 钥 套 接 字 在 第 19 章 中 讲解 。 
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socket 冰 数 在 成 功 时 返回 一 个 小 的 非 负 整数 值 ， 它 与 文件 接 述 符 类 
似 ， 我 们 把 它 称 为 套 接 字 描述 符 (socket descriptor) ， 简 称 sockfd。 为 
了 得 到 这 个 套 接 字 描述 符 ， 我 们 只 是 指定 了 协议 族 〈IPv4、IPv6 或 
Unix) 和 和 套 接 字 类 型 〈 字 节 流 、 数 据 报 或 原始 套 接 字 ) 。 我 们 并 没有 指 
定 本 地 协议 地 址 或 远程 协议 地 址 。 

















对 比 AF_xxx 和 PF_xxx 


AF_ 前 级 表示 地 址 族 ，PF_ 前 缀 表示 协议 族 。 历 史上 曾 有 这 样 的 想 
ik: 单个 协议 族 可 以 支持 多 个 地 址 族 ，PF_ 值 用 来 创建 套 接 字 ， 而 AF_ 值 
用 于 套 接 字 地 址 结构 。 但 实际 上 ， 文 持 多 个 地 址 族 的 协议 族 从 来 就 未 实 
现 过 ， 而 且 头 文件 <sys/socket .h> 中 为 一 给 定 协议 定义 的 PF_ 值 总 是 与 此 
协议 的 AF_ 值 相等 。 尽 管 这 种 相等 关系 并 不 一 定 永远 成 立 ， 但 各 有 人 试 
图 给 已 有 的 协议 改变 这 种 约定 ， 则 许多 现存 代码 都 将 朋 江 。 为 与 现存 代 
码 保持 一 致 ， 本 书 中 我 们 仅 使 用 AF_ 常 值 ， 尽 管 〈 主 要 是 ) 在 调 
用 socket 时 我 们 可 能 会 倍 到 pPF_ 值 。 


查看 BSD/OS 2.1 版 中 调用 socket 的 137 个 程序 ， 可 以 发 现 ， 有 143 个 
调用 指定 AF_ 值 ， 仅 有 8 个 调用 指定 PF fH. 


从 历史 上 说 ，AF_ 前 组 与 PF_ 前 缀 具有 相似 种 值 集 的 原因 要 妃 调 到 
4.1cBSD [Lanciani 1996] 和 比 我 们 正 讲 述 的 〈 随 4.2BSD 出 现 
HJ) socket 函 数 早 些 的 一 个 版 本 。socket 函 数 的 4.1cBSD 版 本 采用 了 四 
个 参数 ， 其 中 有 一 个 是 指向 sockproto 结 构 的 指针 。 该 结构 的 第 一 个 成 
员 名 为 sp_family， 它 的 值 是 某 个 PF_ 值 ; 第 二 个 成 员 即 sp_protocol 是 一 
个 协议 号 ， 与 现行 socket 函 数 的 第 三 个 参数 相似 。 指 定 协 议 族 的 唯一 方 











法 就 是 指定 该 结构 ， 因 此 ， 在 这 个 早期 系统 中 ，PF_ 值 用 来 在 sockproto 
结构 中 指定 协议 族 的 结构 标签 ， 而 AF_ 值 用 来 在 套 接 字 地 址 结构 中 指定 

地 址 族 的 结构 标签 。4.4BSD 中 仍 有 sockproto 结 构 CTCPv256626— 627 

页 ) ， 但 仅 由 内 核 在 内 部 使 用 。 在 最 初 的 定义 中 ， 对 sp_family 成 员 

有 “protocol family”( 协 议 族 ) 的 注释 ， 在 4.4BSD 源 代码 中 已 改 
为 “address family”( 地 址 族 ) 了 。 
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TELA Se RAR M(B APR MZ Kae, RPA maa 
与 socket 函 数 的 第 一 个 参数 作 比较 的 Berkeley 内 核 数据 结构 (domain 结 
构 的 dom_family 成 员 ，TCPv2 第 187 页 ) 有 这 样 的 注释 : UG ar fü. 
尽管 如 此 ， 内 核 中 有 些 domain 结 构 被 初始 化 为 相应 的 AF_ 值 CTCPv2 第 
192 页 ) ， 而 其 他 domain 结 构 则 被 初始 化 成 PF_ 值 CTCPv2 第 646 页 和 
TCPv3 第 229 页 ) 。 


作为 另 一 个 历史 注解 ，4.2BSD 中 socket 函 数 的 手册 页 面 〈 编 写 于 
将 该 函数 的 第 一 个 参数 称 为 af， 并 把 它 的 可 能 取 值 作为 AF_ 
常 值 列 出 。 


最 后 ， 我 们 指出 POSIX 规 范 指 定 socket 函 数 的 第 一 个 参数 为 PF_ 
值 ， 而 AF_ 值 用 于 套 接 字 地 址 结构 。 然 而 它 在 addrinfo 结 构 (11.6 节 ) 中 
p cer m 既 用 于 调用 socket 函 数 ， 也 用 于 套 接 字 地 址 结构 
! 








4.3 connect ci 2X 
TCP 客 户 用 connect 函 数 来 建立 与 TCP 服 务 器 的 连接 。 


#include <sys/socket.h> 
int connect(int sockfd, const struct sockaddr *servaddr, socklen t addrlen); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 





sockfd 是 由 socket 函 数 返回 的 套 接 字 摘 述 和 从， 第 二 个 、 第 三 个 参数 
分 别 是 一 个 指向 套 接 字 地 址 结构 的 指针 和 该 结构 的 大 小 ， 如 3.3 节 所 
述 。 套 接 字 地 址 结构 必须 含有 服务 串 的 卫 地 址 和 端口 号 。 我 们 已 在 图 1- 
5 中 见 过 本 函数 的 一 个 例子 。 


客户 在 调用 函数 connect 前 不 必 非 得 调用 bind 函 数 〈 我 们 在 下 一 节 
介绍 该 函数 ) ， 因 为 如 果 需 要 的 话 ， 内 核 会 确定 源 IP 地 址 ， 并 选择 一 个 
临时 端口 作为 源 端 口 。 


如 果 是 TCP 套 接 字 ， 调 用 connect 函 数 将 激发 TCP 的 三 路 握手 过 程 
(2.655) ， 而 且 仅 在 连接 建立 成 功 或 出 错时 才 返 回 ， 其 中 出 错 返 回 可 
能 有 以 下 几 种 情况 。 


(1) 知 TCP 客 户 没有 收 到 SYN 分 节 的 啊 应 ， 则 返回 ETIMEDOUT 错 误 。 
举例 来 说 ， 调 用 connect 函 数 时 ，4.4BSD 内 核发 送 一 个 SYN， 知 无 啊 应 
则 等 待 6s 后 再 发 送 一 个 ， 知 仍 无 啊 应 则 等 待 24s 后 再 发 送 一 个 〈TCPv2 第 
828 页 ) 。 若 总 共 等 了 75s 后 仍 未 收 到 响应 则 返回 本 错误 。 


有 些 系统 提供 对 超时 值 的 管理 性 控制 ， 见 TCPv1 的 附录 E。 


(2) 若 对 客户 的 SYN 的 响应 是 RST (CEREM) ， 则 表明 该 服务 器 主 
机 在 我 们 指定 的 端口 上 没有 进程 在 等 待 与 之 连接 (例如 服务 嚣 进程 也 许 
没 在 运行 ) 。 这 是 一 种 硬 错误 Chard error) ， 客 户 一 接收 到 RST 就 马上 
返回 ECONNREFUSED 错 误 。 
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RST 是 TCP 在 发 生 错 误 时 发 送 的 一 种 TCP 分 节 。 产 生 RST 的 三 个 条 


件 是 : 目的 地 为 某 端 口 的 SYN 到 达 ， 然 而 该 端口 上 没有 正在 监听 的 服务 
器 (如 前 所 述 ) ;，TCP 想 取消 一 个 已 有 连接 ，TCP 接 收 到 一 个 根本 不 存 
在 的 连接 上 的 分 节 。 (TCPv1 第 246 一 250 页 有 更 详细 的 信息 。) 


(3) 知 客户 发 出 的 SYN 在 中 间 的 某 个 路 由 器 上 引发 了 一 个 “destination 
unreachable” (目的 地 不 可 达 ) ICMP 错 误 ， 则 认为 是 一 种 软 错误 (soft 
error) 。 客 户主 机 内 核 保存 该 消息 ， 并 按 第 一 种 情况 中 所 述 的 时 间 间 隔 
继续 发 送 SYN。 若 在 某 个 规定 的 时 间 〈4.4BSD 规 定 75s) 后 仍 未 收 到 响 
应 ， 则 把 保存 的 消息 ( 即 ICMP 错 误 〉 作为 ENOSTUNREACH 或 ENETUNREACH 
音 误 返 回 给 进程 。 以 下 两 种 情形 也 是 有 可 能 的 : 一 是 按照 本 地 系统 的 转 
发 表 ， 根 本 没有 到 这 远 程 系统 的 路 径 ， 二 是 connect 调 用 根本 不 等 竺 就 


返回 


许多 早期 系统 〈 璧 如 4.2BSD) 在 收 到 “目的 地 不 可 达 ”ICMP 错 误 时 
会 不 正确 地 放弃 建立 连接 的 尝试 。 这 种 做 法 不 正确 是 因为 ICMP 错 误 可 
2 NNUS 譬如 说 ， 它 可 能 是 终究 可 以 修复 的 某 个 路 由 问题 
引起 的 。 


注意 ， 即 使 ICMP 错 误 指 示 目 的 网 络 不 可 达 ， 图 A-15 中 也 没有 列 出 
ENETUNREACH。 网 络 不 可 达 的 错误 被 认为 已 过 时 ， 应 用 进程 应 该 把 
ENETUNREACH 和 EHOSTUNREACH 作 为 相同 的 错误 对 待 。 


我 们 可 以 用 图 1-5 所 示 的 简单 客户 程序 来 得 看 这 些 不 同 的 出 错 情 


况 。 首 先 指定 本 地 主机 (127.0.0.1) ， 它 正在 运行 对 应 的 时 间 获 取 服 务 
器 程序 ， 我 们 观察 正常 的 输出 : 











solaris % daytimetcpcli 127.0.0.1 
Sun Jul 27 22:01:51 2003 


为 了 查看 返回 响应 的 另 一 种 格式 ， 我 们 指定 另外 一 个 主机 的 卫 地 址 
(本 例 中 为 那个 HP-UX 主 机 的 也 地 址 ) : 


solaris % daytimetcpcli 192.6.38.100 
Sun Jul 27 22:04:59 PDT 2003 


我 们 接着 指定 本 地 子 网 (192.168.1/24) 上 其 主机 ID (100) 并 不 存 
在 的 一 个 下地 址 ， 也 就 是 说 本 地 子 网 上 没有 一 个 主机 ID 为 100 的 主机 ， 
这 样 当 客户 主机 发 出 ARP 请 求 〈 要 求 那 个 不 存在 的 主机 响应 以 其 硬件 地 


AE) 时 ， 它 将 永远 收 不 到 ARP 啊 应 : 


solaris % daytimetcpcli 192.168.1.100 
connect error: Connection timed out 


RMI Fllconnect PA 数 超 时 后 (对 于 Solaris ”9 约 为 4 分 钟 ) 才 得 到 该 
错误 。 留 意 我 们 的 err_sys 函 数 以 直观 可 读 的 字符 串 消 恩 显示 了 
ETIMEDOUTÉÉ ET po 


下 一 个 例子 中 我 们 指定 一 个 没有 运行 时 间 获取 服务 器 程序 的 主机 
(其 实 是 一 个 本 地 路 由 器 ) 。 


solaris % daytimetcpcli 192.168.1.5 
connect error: Connection refused 
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服务 器 主机 立刻 响应 以 一 个 RST 分 节 。 


最 后 一 个 例子 中 我 们 指定 一 个 因特网 中 不 可 到 达 的 耳 地 址 。 如 果 我 
们 用 tcpdump 观 察 分 组 的 情况 ， 就 会 发 现 6 跳 以 远 的 路 由 右 返 回 了 主机 不 
可 达 的 ICMP 错 误 。 


solaris % daytimetcpcli 192.3.4.5 
connect error: No route to host 








跟 ETIMEDoUT 错 误 一 样 ， 本 例 中 的 connect 也 在 等 待 规 定 的 一 段 时 间 
之 后 才 返 回 EHoSTUNREACH 错 误 。 


按照 TCP 状 态 转换 图 (图 2-4) , connect HKA 5e SIC B PESE A 
CLOSED 状 态 〈 该 套 接 字 自从 由 socket 函 数 创 建 以 来 一 直 所 处 的 状态 ) 
转移 到 SYN_SENT 状 态 ， 大 成 功 则 再 转移 到 ESTABLISHED 状 态 。 和 大 
connect 失 败 则 该 套 接 字 不 再 可 用 ， 必 须 关 闭 ， 我 们 不 能 对 这 样 的 套 接 
字 和 再 次 调用 connect 函 数 。 在 图 11-10 中 我 们 将 看 到 ， 当 循环 调用 函 
数 connect 为 给 定 主 机 尝试 各 个 IP 地 址 直到 有 一 个 成 功 时 ， 在 每 
次 connect 失 败 后 ， 都 必须 close 当 前 的 套 接 字 描 述 符 并 重新 调 
用 socket。 








4.4 binder 2 


bind 函 数 把 一 个 本 地 协议 地 址 赋予 一 个 套 接 字 。 对 于 网 际 网 协议 ， 
协议 地 址 是 32 位 的 了 Pv4 地 址 或 128 位 的 IPv6 地 址 与 16 位 的 TCP 或 UDP 端口 
号 的 组 合 。 

#include «sys/socket.h» 


int bind(int sockfd, const struct sockaddr *myaddr, socklen t addrlen); 
返回 : 若 成 功 则 为 9， 若 出 错 则 





为 -1 


历史 上 讲述 bind 函 数 的 手册 页 面 曾 说 “bind assigns a name to an 
unnamed socket (bind 函 数 为 一 个 无 名 的 套 接 字 命名 ) ”。 使 
用 “name”( 名 字 ) 一 词 易 于 让 人 混 消 ， 因 为 它 具 有 诸如 foo .bar . com 之 
类 域名 (第 11 章 ) 的 涵义 。bind 函 数 其 实 与 名 字 没 有 任何 关系 。 它 只 是 
Ded UNAM S 个 套 接 字 ， 至 于 协议 地 址 的 含义 则 取决 于 协议 本 
H. 


FIP SBC M4 a) RE FD WA hE 二 构 的 指针 ， FITS 
是 该 地 址 结构 的 长 度 。 对 于 TCP， 调用 bind 函 数 可 以 指定 一 个 端口 号 ， 
或 指定 一 个 IP 地 址 ， 也 可 以 两 者 都 指定 ， 还 可 以 都 不 指定 。 

















e 服务 器 在 启动 时 捆绑 它们 的 众所周知 端口 ， 我 们 在 图 1-9 中 已 看 到 
了 。 如 果 一 个 TCP 客 户 或 服务 器 未 曾 调用 bind 捆 绑 一 个 端口 ， 当 调 
用 connect 或 1isten 时 ， 内 核 就 要 为 相应 的 套 接 字 选 择 一 个 临时 端 
口 。 让 内 核 来 选择 临时 端口 对 于 TCP 客 户 来 说 是 正常 的 ， 除 非 应 用 
需要 一 个 预 留 端口 ee 10) ; 然而 对 于 TCP 服 务 器 来 说 却 极为 罕 
见 ， 因 为 服务 器 是 通 过 它们 的 众所周知 端 口 被 大 家 认识 的 。 
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这 个 规则 的 例外 是 远程 过 程 调用 (Remote Procedure Call, RPC) 
服务 器 。 它 们 通常 就 由 内 核 为 它们 的 监听 套 接 字 选择 一 个 临时 端口 ， 而 
该 痛 口 随后 通过 RPC 端 口 映 射 器 进行 注册 。 客 户 在 connect 这 些 服 务 右 
之 前 ， 必 须 与 端口 映射 右 联 系 以 获取 它们 的 临时 端口 。 这 种 情况 也 适用 


于 使 用 UDP 的 RPC 服 务 器 。 


e 进程 可 以 把 一 个 特定 的 耳 地 址 捆绑 到 它 的 套 接 字 上 ， 不 过 这 个 也 地 
址 必须 属于 其 所 在 主机 的 网 络 接口 之 一 。 对 于 TCP 客 户 ， 这 就 为 在 
该 套 接 字 上 发 送 的 IP 数 据 报 指派 了 源 IP 地 址 。 对 于 TCP 服 务 器 ， 这 
就 限定 该 套 接 字 只 接收 那些 目的 地 为 这 个 JP 地址 的 客户 连接 。 
TCP 客 户 通 常 不 把 IP 地 址 捆绑 到 它 的 套 接 字 上 。 当 连接 套 接 字 时 ， 
内 核 将 根据 所 用 外 出 网 络 接 口 来 选择 源 IP 地 址 ， 而 所 用 外 出 接口 则 
取决 于 到 达 服 务 器 所 需 的 路 径 (CTCPv2 第 737 页 ) 。 

如 果 TCP 服 务 器 没有 把 了 地 址 捆绑 到 它 的 套 接 字 上 ， 内 核 就 把 客户 
发 送 的 SYN 的 目的 IP 地 址 作为 服务 器 的 源 IP 地 址 〈TCPv2 第 943 
D. 


正如 我 们 所 说 ， 调 用 bind 可 以 指定 IP 地 址 或 端口 ， 可 以 两 者 都 指 
定 ， 也 可 以 都 不 指定 。 图 4-6 汇 总 了 如 何 根据 预期 的 结果 ， 设 置 sin_addr 
和 和 sin_port 或 者 sin6_addr 和 sin6_port 的 值 。 























进程 指定 - x 
IP 地 址 
An fs 内 核 选 择 趾 地 址 和 端口 
通 配 地 址 AF 内 核 选择 IP 地 址 ， 进 程 指定 痕 口 
本 地 IP 地址 进程 指定 吓 地 址 ， 内 核 选择 端口 
AS Hh TP HE it : 进程 指定 IP 地 址 和 端口 





图 4-6 给 pind 函 数 指定 要 捆绑 的 IP 地 址 和 /或 端口 号 产生 的 结果 


如 果 指 定 端口 号 为 0， 那 么 内 核 就 在 bind 被 调用 时 选择 一 个 临时 端 
口 。 然 而 如 果 指 定 卫 地 址 为 通 配 地 址 ， 那 么 内 核 将 等 到 套 接 字 已 连接 
(TCP) 或 已 在 套 接 字 上 发 出 数据 报 CUDP) 时 才 选 择 一 个 本 地 IP 地 
址 。 


对 于 IPv4 来 说 ， 通 配 地 址 由 常 值 INADDR_ANY 来 指定 ， 其 值 一 般 为 
0。 它 告知 内 核 去 选择 IP 地 址 。 我 们 已 在 图 1-9 中 随 如 下 赋值 语句 看 到 过 
它 的 使 用 : 


struct sockaddr in servaddr; 
servaddr.sin addr.s addr - htonl(INADDR ANY); /* wildcard */ 
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如 此 赋值 对 IPv4 是 可 行 的 ， 因 为 其 IP 地 址 是 一 个 32 位 的 值 ， 可 以 用 
一 个 简单 的 数字 常 值 表 示 (本 例 中 为 0， ， 对 于 IPv6， 我 们 就 不 能 这 人 么 
做 了 ， 因为 128 位 的 IPv6 地 址 是 存放 在 一 个 吉 构 中 的 。 CECE +H, lm 
值 语 名 的 右边 无 法 表示 常 值 结 构 。) 为 了 解决 这 个 问题 ， 我 们 改写 为 : 


struct sockaddr in6 serv; 
serv.sin6 addr = in6addr Pes /* wildcard */ 


系统 预先 分 配 in6addr_any 变 量 并 将 其 初始 化 为 第 
值 IN6ADDR_ANY_INIT。 头 文件 <netinet/in.h> 中 含有 in6addr_any 的 
extern 声 明 o 


无 论 是 网 络 字 节 序 还 是 主机 字 节 序 ，INADDR_ANY 的 值 〈 为 0) 都 一 
FE, 因此 使 用 hton1 并 非 必需 。 不 过 既然 头 文件 <netinet/in.h> 中 定义 的 
所 有 INADDR_ 常 值 都 是 按照 主机 字 节 序 定义 的 ， 我 们 应 该 对 任何 这 些 和 党 
值 都 使 用 htonl。 


如 果 让 内 核 来 为 套 接 字 选择 一 个 临时 端口 号 ， 那 么 必须 注意 ， 函 
数 bind 并 不 返回 所 选择 的 值 。 实 际 上 ， 由 于 bind 函 数 的 第 二 个 参数 
有 const 限 定 词 ， 它 无 法 返回 所 选 之 值 。 为 了 得 到 内 核 所 选择 的 这 个 临 
时 端口 值 ， 必 须 调用 函数 getsockname 来 返回 协议 地 址 。 


进程 捆绑 非 通 配 IP 地 址 到 套 接 字 上 的 和 常见 例子 是 在 为 多 个 组 织 提供 
Web 服 务 器 的 主机 上 〈(TCPv3 的 14.2 节 ) 。 首 先 ， 每 个 组 织 都 得 有 各 自 
的 域名 ， 壁 如 这 样 的 形式 : www.organization.com。 其 次 ， 每 个 组 织 的 
域名 都 映射 到 不 同 的 卫 地 址 ， 不 过 通常 仍 在 同一 个 子 网 上 。 举 例 来 说 ， 
如 果子 网 是 198.69.10， 那 么 第 一 个 组 织 的 IP 地 址 可 以 是 198.69.10.128， 
第 二 个 组 织 的 可 以 是 198.69.10.129， 等 等 。 然 后 ， 把 所 有 这 些 IP 地 址 都 
定义 成 单个 网 络 接 口 的 别名 ( 壁 如 在 4.4BSD 系 统 上 就 使 用 ifconfig 命 令 
的 alias 选 项 来 定义 ) ， 这 么 一 来 ，IP 层 将 接收 所 有 目的 地 为 任何 一 个 
别名 地 址 的 外 来 数据 报 ， 最 后 ， 为 每 个 组 织 启动 一 个 HTTP 服 务 器 的 副 
本 ， 每 个 副本 仅仅 捆绑 相应 组 织 的 IP 地 址 。 


替换 上 述 方法 的 另 一 种 技术 是 运行 捆绑 通 配 地 址 的 单个 服务 器 。 当 
一 个 连接 到 达 时 ， 服 务 器 调用 getsockname 函 数 获取 来 自 客户 的 目的 IP 地 
址 ， 它 在 我 们 的 上 述 讨论 中 可 以 是 198.69.10.128、198.69.10.129， 等 





等 。 服 务 器 然后 根据 这 个 客户 连接 所 友 往 的 IP 地 址 来 处 理 客户 的 请 求 。 


捆绑 非 通 配 了 地址 的 好 处 是 : 把 一 个 给 定 的 目的 卫 地 址 解 复 用 到 一 
个 给 定 的 服务 器 进程 是 由 内 核 〈 而 不 是 服务 器 进程 ) 完成 的 。 


我 们 必须 仔细 区 别 一 个 分 组 的 到 达 接 口 和 该 分 组 的 目的 人 地 址 。 钨 
我 们 将 在 8.8 节 讨论 弱 端 系统 模型 和 强 端 系统 模型 。 大 多 数 实现 都 采用 
前 者 ， 意 味 着 一 个 分 组 只 要 其 目的 耳 地 址 能 够 标识 目的 主机 的 某 个 网 络 
接口 就 行 ， 不 必 一 定 是 它 的 到 达 接 口 。《〈 这 里 假设 目的 主机 是 多 宿主 
机 。) 捆绑 非 通 配 耳 地 址 只 是 限定 根据 目的 了 地 址 来 确定 递送 到 套 接 字 
的 数据 报 ， 而 对 于 到 友 接 口 则 未 做 任何 限制 ， 除 非 主机 采用 强 端 系统 模 
型 。 








从 bind 函 数 返 回 的 一 个 常见 错误 是 EADDRINUSE (“Address already in 
use”， 地 址 已 使 用 ) 。 到 7.5 节 讨论 so_REUSEADDR 和 So_REUSEPORT 这 两 个 
套 接 字 选 项 时 我 们 再 详细 说 明 。 
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4.5 listenek 2X 


listen BUM FHTCPJIR AS S8 UR A, “EARN ESET o 


(1) 当 socket 函 数 创建 一 个 套 接 字 时 ， 它 被 假设 为 一 个 主动 套 接 
字 ， 也 就 是 说 ， 它 是 一 个 将 调用 connect 发 起 连接 的 客户 套 接 
字 。1listen 国 数 把 一 个 未 连接 的 套 接 字 转换 成 一 个 被 动 套 接 字 ， 指 示 内 
核 应 接受 指向 该 套 接 字 的 连接 请 求 。 根 据 TCP 状 态 转换 图 (图 2-4) ， 调 
用 1isten 导 致 套 接 字 从 CLOSED 状 态 转换 到 LISTEN 状 态 。 


Q) 本 函数 的 第 二 个 参数 规定 了 内 核 应 该 为 相应 套 接 字 排队 的 最 大 
连接 个 数 。 














#include <sys/socket.h> 
int listen(int sockfd, int backlog); 





可 : 若 成 功 则 为 9， 若 出 错 则 为 -1 











Es 





本 函数 通常 应 该 在 调用 socket 和 bind 这 两 个 函数 之 后 ， 并 在 调 
用 accept 函 数 之 前 调用 。 


为 了 理解 其 中 的 backlog 参 数 ， 我 们 必须 认识 到 内 核 为 任何 一 个 给 定 
的 监听 套 接 字 维 护 两 个 队列 : 


(1) 未 完成 连接 队列 Cincomplete connection queue) ， 每 个 这 样 的 
SYN 分 节 对 应 其 中 一 项 : 已 由 茶 个 客户 发 出 并 到 达 服 务 器 ， 而 服务 器 正 
在 等 待 完成 相应 的 TCP 三 路 握手 过程。 这 些 套 接 字 处 于 SYN_RCVD 状 态 
(图 2-4) 。 








(2) 己 完 成 连接 队列 (completed connection queue) ， 每 个 已 完成 
TCP 三 路 握手 过 程 的 客户 对 应 其 中 一 项 。 这 些 套 接 字 处 于 
ESTABLISHED{KAS (12-4) 。 
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图 4-7 TCP 为 监听 套 接 字 维 护 的 两 个 队列 


每 当 在 未 完成 连接 队列 中 创建 一 项 时 ， 来 自 监 昕 套 接 字 的 参数 束 复 
制 到 即将 建立 的 连接 中 。 连 接 的 创建 机 制 是 完全 上 自动 的 ， 无 需 服 务 器 进 
程 插 手 。 图 4-8 展 示 了 用 这 两 个 队列 建立 连接 时 所 交换 的 分 组 。 

















PR d xk 
connect W ji] 
f ae 
在 未 完成 队列 建立 条 目 


aan 


connectik|] 一 一 一 一 ACK K+7 


? RTT 
| 


该 条 日 从 未 完成 队 
刘 转 移 至 己 完 成 队 
Kil, accept TIENE «e 


图 4-8 ” TCP 三 路 握手 和 监听 套 接 字 的 两 个 队列 


当 来 自 客户 的 SYN 到 达 时 ，TCP 在 未 完成 连接 队列 中 创建 一 个 新 
项 ， 然 后 啊 应 以 三 路 握手 的 第 二 个 分 节 : 服务 器 的 SYN 啊 应 ， 其 中 撒 融 
对 客户 SYN 的 ACK 〈2.6 节 ) 。 这 一 项 一 直 保 留 在 未 完成 连接 队列 中 ， 
直到 三 路 握手 的 第 三 个 分 节 〈 客 户 对 服务 器 SYN 的 ACK) 到达 或 者 该 项 
超时 为 止 。〈 源 自 Berkeley 的 实现 为 这 些 未 完成 连接 的 项 设置 的 超时 值 
为 75 so ) 如 果 三 路 握手 正常 完成 ， 该 项 就 从 未 完成 连接 队列 移 到 已 完 

















成 连接 队列 的 队 尾 。 当 进程 调用 accept 时 (该 函数 在 下 一 节 讲 解 ) . 0 
完成 连接 队列 中 的 队 头 项 将 返回 给 进程 ， 或 者 如 果 该 队列 为 空 ， 那 么 进 
程 将 被 投入 睡眠 ， 直 到 TCP 在 该 队列 中 放 入 一 项 才 唤 醒 它 。 
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关于 这 两 个 队列 的 处 理 ， 以 下 几 点 需要 考虑 。 





e 1listen 函 数 的 backlog 参 数 曾 被 规定 为 这 两 个 队列 总 和 的 最 大 值 。 
backlog 的 含义 从 未 有 过 正式 的 定义 。4.2BSD 的 手册 页 面 宣称 它 定 


义 的 是 : “the maximum length the queue of pending connections may grow 
to”《〈 由 未 处 理 连 接 构成 的 队列 可 能 增长 到 的 最 大 长 度 ) 。 许 多 手册 页 
面 甚至 POSIX 规 范 也 逐 字 复制 该 定义 ， 然 而 该 定义 并 未 解释 未 处 理 连接 
是 处 于 SYN_RCVD 状 态 的 连接 ， 还 是 尚未 由 进程 接受 的 处 于 
ESTABLISHED 状 态 的 连接 ， 亦 或 两 者 省 可 。 这 个 历史 性 的 定义 出 自 退 
调 到 4.2BSD 版 本 的 Berkeley 的 实现 ， 后 来 被 许多 其 他 实现 复制 。 


。 源 自 Berkeley 的 实现 给 backlog 增 设 了 一 个 模糊 因子 (fudge 
factor) : 把 它 乘 以 1.5 得 到 未 处 理 队 列 最 大 长 度 “TCPv1 第 257 页 和 
TCPv2 第 462 页 ) 。 举 例 来 说 ， 通 常 指 定 为 5 的 packlog 值 实际 上 人 允许 
最 多 有 8 项 在 排队 ， 如 图 4-10 所 示 。 


增设 该 模糊 因子 的 理由 已 无 可 考证 [Joy 1994] ， 但 是 如 果 我 们 把 
backlog 看 成 是 内 核能 为 茶 套 接 字 排 队 的 最 大 已 完成 连接 数目 
( [Borman ] , 稍 后 讨论 ) ， 那 么 增加 模糊 因子 的 理由 就 是 把 队列 中 的 
未 完成 连接 也 计算 在 内 。 








e 不 要 把 backlog 定 义 为 0， 因 为 不 同 的 实现 对 此 有 不 同 的 解释 (图 4- 
10) 。 如 果 你 不 想 让 任何 客户 连接 到 你 的 监听 套 接 字 上 ， 那 就 关 掉 
该 监听 套 接 字 。 

。 在 三 路 握手 正常 完成 的 前 提 下 (也 就 是 说 没有 丢失 分 节 ， 从 而 没有 
重 传 ) ， 未 完成 连接 队列 中 的 任何 一 项 在 其 中 的 存留 时 间 就 是 一 个 
RTT， 而 RIT 的 值 取 诀 于 特定 的 客户 与 服务 器 。TCPv3 的 14.4 节 指 
出 ， 对 于 一 个 Web 服 务 器 ， 许 多 客户 与 单个 服务 器 之 间 的 中 值 RTT 


为 187ms。【〔 既 然 出 现 一 些 大 值 可 能 显著 扭曲 均值 ， 对 于 该 统计 量 
通常 使 用 中 值 。) 

历来 治 用 的 样 例 代码 总 是 给 出 值 为 5 的 backlog， 因 为 这 是 4.2BSD 文 
持 的 最 大 值 。 这 个 值 在 20 世 纪 80 年 代 是 足够 的 ， 当 时 繁忙 的 服务 器 
一 天 也 束 处 理 几 百 个 连接 。 然 而 随 着 万 维 网 (World Wide Web, 
WWW) 的 发 展 ， 繁 忙 的 服务 右 一 天 要 处 理 几 百 万 个 连接 ， 这 个 偏 
小 的 值 就 根本 不 够 了 〈TCPv3 第 187 一 192 页 ) 。 繁 忙 的 HTTP 服 务 
器 必须 指定 一 个 大 得 多 的 backlog 值 ， 而 且 较 新 的 内 核 必须 支持 较 大 
的 backlog 值 。 


当前 的 许多 系统 允许 管理 员 修改 backiog 的 最 大 值 。 
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问题 是 既然 packjiog 值 为 5 往往 不 够 ， 那 么 应 用 进程 应 该 指定 多 大 值 
的 backlog 呢 ?这 个 问题 不 好 回答 。 当 今 的 HTTP 服 务 器 指定 了 一 个 
较 大 的 值 ， 但 是 如 果 这 个 指定 值 在 源 代码 中 是 一 个 常 值 ， 那 么 增长 
其 大 小 需要 重新 编译 服务 器 程序 。 另 一 个 方法 是 设 定 一 个 默认 值 ， 
不 过 人 允许 通过 命令 行 选项 或 环境 变量 履 写 该 默认 值 。 指 定 一 个 比 内 
核能 够 支持 的 值 还 要 大 的 backlog 也 是 可 接受 的 ， 因 为 内 核 应 该 悄然 
人 
第 456 页 . 

我 们 通过 修改 listen 函 数 的 包 庄 函数 就 能 够 提供 解决 本 问题 的 一 个 
简单 办 法 。 图 4-9 给 出 了 实际 的 代码 。 我 们 允许 环境 变量 LTSTENQ 履 
写 由 调用 者 指定 的 值 。 








'ib/wrapsock.c 
137 void 

133 Listen(int fd, int backlog) 

133 ( 

45 


1 C:lat pir 

141 /*4can override 2nd argument with environment variable */ 
142 if ( (ptr = getenv("LISTENQ"!) !- NUILZ) 

143 backlog - atoi(ptr;; 

144 if (listen(=c, backlog! < 0) 

145 err _svs("lisren error"); 


'ibwrapsock.c 





图 4-9 FOV PIA HEAR ied E backlog (HH) Listen] Ze PRU BL 


e 手册 和 书本 历来 声称 : 将 固定 数目 的 未 处 理 连 接 排 成 队列 是 为 了 处 
理 服 务 器 进程 在 相继 的 accept 调 用 之 间 处 于 忙 状态 的 情况 。 这 就 隐 
含 着 如 此 意义 : 在 这 两 个 队列 中 ， 己 完成 队列 通常 应 该 比 未 完成 队 
列 有 更 多 的 项 。 繁 忙 的 Web 上 服务器 再 次 表明 这 是 不 对 的 。 指 定 较 
大 backlog 值 的 理由 在 于 : 随 着 客户 SYN 分 节 的 到 达 ， 未 完成 连接 队 
列 中 的 项 数 可 能 增长 ， 它 们 等 着 三 路 握手 的 完成 。 

当 一 个 客户 SYN 到 达 时 ， 若 这 些 队 列 是 满 的 ，TCP 就 忽略 该 分 节 
CTCPv2:8930— 93171) ， 也 就 是 不 发 送 RST。 这 么 做 是 因为 : 这 
种 情况 是 暂时 的 ， 客 户 TCP 将 重 发 SYN， 期 望 不 久 就 能 在 这 些 队列 
中 找到 可 用 空间 。 要 是 服务 器 TCP 立 即 响应 以 一 个 RST， 客 户 的 
connect 调 用 就 会 立即 返回 一 个 错误 ， 强 制 应 用 进程 处 理 这 种 情 
况 ， 而 不 是 让 TCP 的 正常 重 传 机 制 来 处 理 。 男 外 ， 客 户 无 法 区 别 啊 
应 SYN 的 RST 究 况 意 味 着 “该 端口 没有 服务 器 在 监听 ”， 还 是 意味 
着 “该 端口 有 服务 器 在 监听 ， 不 过 它 的 队列 满 了 ”。 


有 些 实现 在 这 些 队 列 满 时 确实 发 送 RST。 由 于 上 述 原 因 ， 这 种 做 法 
古 不 正确 的 ， 我 们 最 好 忽略 其 存在 的 可 能 性 ， 除 非 客 户 明 确 要 求 与 这 样 
的 服务 器 交互 。 处 理 这 种 情况 的 额外 代码 编写 会 降低 客户 程序 的 健壮 
性 ， 在 正常 的 RST 情 况 下 《 即 确实 没有 服务 圳 在 客户 请 求 的 端口 上 监 
Ur) ， 也 增加 了 网 络 的 负荷 。 
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。 在 三 路 握手 完成 之 后 ， 但 在 服务 器 调用 accept 之 前 到 达 的 数据 应 由 
服务 器 TCP 排 队 ， 最 大 数据 量 为 相应 已 连接 僚 接 字 的 接收 缓冲 区 大 


小 。 


图 4-10 给 出 了 图 1-16 所 列 的 各 种 操作 系统 下 ，backlog 参 数 取 不 同 值 
时 己 排 队 连 接 的 实际 数 日 。7 个 操作 系统 被 归纳 成 5 列 不 同 的 值 ， 可 见 对 
backlog 的 意义 的 解释 是 如 此 多 样 。 





实际 已 排队 连接 的 最 人 数 己 


0 
l 
2 
3 
4 
5 
6 
7 
8 








图 4-10 不同 packlog 值 时 已 排队 连接 的 实际 数目 


AIX 和 MacOS 有 传统 的 Berkeley 算 法 ，Solaris 也 似乎 非常 接近 该 算 
法 ，FreeBSD 则 是 backlog 值 本 身 加 1。 


测量 这 些 值 的 程序 在 习题 15.4 的 解答 中 给 出 。 


我 们 已 提 到 过 ， 历 史上 曾 把 backlog 值 指定 为 两 个 队列 之 和 的 最 大 
值 。 在 1996 年 间 ， 因 特 网 受到 一 种 称 之 为 SYN 泛 滥 (SYN flooding) 的 
新 型 攻击 [CERT 1996b] 。 黑 客 编写 了 一 个 以 高 速率 给 受害 主机 发 送 
SYN 的 程序 ， 用 以 装填 一 个 或 多 个 TCP 端 口 的 未 完成 连接 队列 。 (我 们 
用 黑客 (hacker) 一 词 来 指称 攻击 者 ， 见 [Cheswick, Bellovin, and Rubin 
2003] . ) 而 且 ， 该 程序 将 每 个 SYN 的 源 IP 地 址 都 置 成 随机 数 ( 称 为 IP 
欺骗 (IP spoofing) ) ， 这 样 服务 器 的 SYN/ACK 就 发 往 不 知道 什么 地 
方 ， 同 时 防止 受 攻 击 服务 器 获悉 黑客 的 真实 耳 地址。 这样 ， 通 过 以 伪造 
的 SYN 装 填 未 完成 连接 队列 ， 使 合法 的 SYN 排 不 上 队 ， 导 致 针对 合法 客 
户 的 服务 被 拒绝 (denial of service) 。 有 两 种 处 理 这 种 拒绝 服务 型 攻击 
的 常用 方法 ， [Borman ] 作 了 总 结 。 不 过 这 儿 我 们 最 感 兴 趣 的 是 回味 
一 下 listen 的 backlog 参 数 的 确切 含义 。 它 应 该 指定 某 个 给 定 套 接 字 上 内 
核 为 之 排队 的 最 大 已 完成 连接 数 。 对 于 已 完成 连接 数 作 出 限制 的 目的 在 
T: 在 监听 某 个 给 定 套 接 字 的 应 用 进程 〈 不 论 什 么 原因 ) 停止 接受 连接 
的 时 候 ， 防 止 内 核 在 该 套 接 字 上 继续 接受 新 的 连接 请 求 。 如 果 一 个 系统 
实现 了 这 样 的 解释 (例如 BSD/OS 3.00 ， 那 么 应 用 程序 就 无 需 仅 仅 因 为 























服务 器 进程 需要 处 理 大 量 客户 请 求 〈 例 如 蛇 忙 的 web 服务器 ) 或 者 为 了 

提供 对 SYN 泛 滥 的 防护 而 指定 一 个 巨大 的 backlog 值 了 。 内 核 处 理 大 量 的 
未 完成 连接 ， 而 不 论 它们 来 自 合法 客户 还 是 来 自 黑 客 。 然 而 即使 在 这 样 
的 解释 下 ， 传 统 为 5 的 backlog 值 不 够 大 的 情形 依然 友 生 。 
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4.6 accept Ph ží 


accept KÆ HHTCPHRA S8 Val, FOP PA Coe ORE Be BAS) BA SKK [REP 
一 个 已 完成 连接 (图 4-7) 。 如 果 已 完成 连接 队列 为 空 ， 那 么 进程 被 投 
NER CBE BR FA OA BEE TT TL) 。 

#include <sys/socket.h> 


int accept(int sockfd, struct sockaddr *cliaddr, socklen_t *addrlen); 








返回 : 若 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 -1 




















参数 cliaddr 和 addrien 用 来 返回 已 连接 的 对 端 进程 〈 客 户 ) 的 协议 地 
址 。addrien 是 值 一 结果 参数 (3.377) : 调用 前 ， 我 们 将 由 *addrlen 所 引 
用 的 整数 值 置 为 由 cliaddr 所 指 的 套 接 字 地 址 结构 的 长 度 ， 返 回 时 ， 该 整 
数值 即 为 由 内 核 存 放 在 该 套 接 字 地 址 结构 内 的 确切 字 节 数 。 


如 果 accept 成 功 ， 那 么 其 返回 值 是 由 内 核 上 自动 生成 的 一 个 全 新 摘 述 
符 ， 代 表 与 所 返回 客户 的 TCP 连 接 。 在 讨论 accept 函 数 时 ， 我 们 称 它 的 
第 一 个 参数 为 监听 套 接 字 (istening socket) 描述 符 ( 由 socket 创 建 ， 
随后 用 作 bind 和 1isten 的 第 一 个 参数 的 描述 符 ) ， 称 它 的 返回 值 为 已 连 
ET (connected socket) 描述 符 。 区 分 这 两 个 套 接 字 非 党 重要 。 一 
个 服务 器 通常 仅仅 创建 一 个 监听 套 接 字 ， 它 在 该 服务 器 的 生命 期 内 一 直 
存在 。 内 核 为 每 个 由 服务 器 进程 接受 的 客户 连接 创建 一 个 已 连接 套 接 字 
〈 也 束 是 说 对 于 它 的 TCP 三 路 握手 过 程 已 经 完成 ) 。 当 服务 器 完成 对 某 
个 给 定 客户 的 服务 时 ， 相 应 的 已 连接 套 接 字 束 被 关闭 。 


本 函数 最 多 返回 三 个 值 : 一 个 既 可 能 是 新 套 接 字 描述 符 也 可 能 是 出 
错 指示 的 整数 、 客 户 进程 的 协议 地 址 〈 由 cliaddr 指 针 所 指 ) 以 及 该 地 址 
的 大 小 《由 addrien 指 针 所 指 ) 。 如 果 我 们 对 返回 客户 协议 地 址 不 感 兴 
趣 ， 那 么 可 以 把 cliaddr 和 addrlen 均 置 为 空 指针 。 


图 1-9 展 示 了 这 些 指针 。 已 连接 套 接 字 每 次 都 在 循环 中 关闭 ， 但 监 
听 套 接 字 在 服务 局 的 整个 有 效 期 内 都 保持 开放 。 我 们 还 看 到 accept 的 第 
二 和 第 三 个 参数 都 是 空 指针 ， 因 为 我 们 对 客户 的 号 份 不 感 兴趣 。 
































例子 : 值 一 结果 参数 


现在 ， 我 们 通过 修改 图 1-9 中 所 示 代 码 以 显示 客户 的 IP 地 址 和 端口 
写 ， 来 看 看 如 何 处 理 accept 的 值 一 结果 参数 ， 见 图 4-11。 
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iniroidaytimelcpsvi.c 





1 H.uclude "unp.:* 

2 Hinclude <time.h> 

3 in- 

4 main(int arge, char **arqv) 


5 { 

6 int l-stenfd, connfc: 

7 socklen t len; 

8 etruct escxaddr_in servzdzr, c.iaddr; 
9 char suff [MAXLING’ ; 

[1] 

1 


10 time t ticks; 

1 listenfd = Soc«eL/AF INET, SOCK STREAM, C); 

12 bzero(&ssrvaddr, sizeof servaddr)) ; 

13 serveddr.sin_ family = AF INHET; 

14 servadór.ein addr.s addr = Ltcnl,;1NADDE ANY]; 

15 servidár.sin port = htons(13); /* daytime server */ 

16 Bind(listentd, ‘Eh *! &servadar, 3izeot(cervaddr)): 

1 Listen(-ietentd, LISTEN)!; 

Le for (7; )4 

19 len = siscof (cliaddr] ; 

20 connfd = AccepL(lisLeufd, ISA *) &cliaddr, é&len): 

21 rrinzf("connectior from ts, port $2\n", 

22 inec ntop(AF INET, &clicddr.sin_ addr, buf=, sizeof (buff)), 
23 ntohs (cliaddr.sin_port!); 

24 ticks = zine (NULL); 

25 snprintf(buff, sizeof (buffi), *2.24s\c\n", ctimel&ticks]) ; 
26 write ‘connfd, buff, s-rlenibuff)); 

25 Claose;connid;; 

ug ) 

^6 


wiro/daytimeicpsvel.c 


图 4-11 显示 客户 IP 地 址 和 端口 号 的 时 间 获 取 服务 器 程序 





新 的 声明 


7-8 ”我 们 定义 两 个 新 的 变量 :len， 它 将 成 为 一 个 值 -结果 变 
量 ; cliaddr， 它 将 存放 客户 的 协议 地 址 。 


接受 连接 并 显示 客户 地 址 





19-23 ”我 们 将 len 初 始 化 为 套 接 字 地 址 结构 的 大 小 ， oh d 
结构 的 指针 和 指 问 len 的 指针 分 别 作 为 accept 的 第 二 和 第 三 个 参数 。 
inet ntop (3.775) 将 套 接 字 地 址 结构 中 的 32 位 IP 地 址 转换 为 一 
分 十 进 制 数 ASCII 字 符 串 ， 调 用 ntohs (3.4 节 ) 将 16 位 的 端口 全 从 网 络 
字 节 序 转换 为 主机 字 节 序 。 


调用 sock_ntop 来 取代 inet_ntop 将 使 得 我 们 的 服务 器 更 具 协 议 无 关 
性 ， 不 过 该 服务 器 已 经 依赖 于 IPv4 了 。 我 们 将 在 图 11-13 中 给 出 该 服务 
器 程序 的 协议 无 关 版 本 。 


运行 这 个 新 的 服务 器 程序， 然后 在 同一 个 主机 上 连续 运行 客户 程序 
两 次 以 连接 到 该 服务 器 ， 我 们 得 到 来 目 客户 的 如 下 输出 : 


solaris % daytimetcpcli 127.0.0.1 
Thu Sep 11 12:44:00 2003 

solaris % TO 192.168.1.20 
Thu Sep 11 12:44:09 03 





我 们 首先 把 服务 器 主机 的 地 址 指定 为 环 回 地 址 〈127.0.0.1) ， 然 后 
指定 为 它 自身 的 IP 地 址 (192.168.1.20) 。 下 面 是 相应 的 服务 器 输出 : 


solaris # daytimetcpsrv1 
connection from 127.0.0.1, port 43388 
connection from 192.168.1.20, port 43389 





注意 客户 IP 地 址 的 变化 。 既 然 我 们 的 时 间 获 取 客 户 程序 (图 1-5) 
不 调用 bind， 而 我 们 在 4.4 节 说 过 ， 这 样 的 客户 由 内 核 根据 所 用 Qs 口 
选 定 源 耻 地 址 。 第 一 个 案例 中 ， 内 核 把 源 卫 地址 置 为 环 回 地 址 ;第 二 个 
案例 中 ， 内 核 把 源 耳 地 址 置 为 以 太 网 接口 的 耳 地 址 。 从 本 例 子 中 我 们 还 还 
看 到 ， 由 Solaris 内 核 选 择 的 临时 端口 号 先是 43388， 后 是 43389 (回顾 图 
2:10). 3 


最 后 一 点 ， 服 务 器 脚本 的 shell 提 示 符 变 为 井 号 Gb) ， 它 是 超级 用 
户 的 常用 提示 符 。 该 服务 器 必须 以 超级 用 户 特权 和 运行， 以便 绑 定 保留 的 
13 号 端口 。 如 果 没 有 超级 用 户 特 权 ， 调 用 bind 将 失败 : 


solaris % daytimetcpsrv1 
bind error: Permission denied 





4.7 fork^4lexecrK AY 


ERRU d FAIRS REY A CR— BO ， 我 们 必须 首先 介 
绍 一 下 Unix 的 fork 函 数 。 该 函数 《〈 包 括 有 些 系 统 可 能 提供 的 它 的 各 种 变 
体 ) 是 Unix 中 派生 新 进程 的 唯一 方法 。 

#include <unistd.h> 


pid_t fork(void); 









































mi 
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ud: 在 子 进程 中 为 96， 在 父 进程 中 为 子 进程 ID， 若 出 错 则 为 -1 














如 果 你 以 前 从 未 接触 过 该 函数 ， 那 么 理解 fork 最 困难 之 处 在 于 调用 
它 一 次 ， 它 却 返 回 两 次 。 它 在 调用 进程 ( 称 为 父 进 程 》 中 返回 一 次 ， 返 
回 值 是 新 派生 进程 〈 称 为 子 进程 ) 的 进程 ID 号 ; 在 子 进程 又 返回 一 次 ， 
返回 值 为 0。 因 此 ， 返 回 值 本 身 告知 当前 进程 是 子 进程 还 是 父 进程 。 
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fork 在 子 进 程 返 回 0 而 不 是 父 进 程 的 进程 ID 的 原因 在 于 : 任何 子 进 
程 只 有 一 个 父 进程 ， 而 且 子 进程 总 是 可 以 通过 调用 getppid 取 得 父 进程 
的 进程 ID。 相 反 ， 父 进程 可 以 有 许多 子 进程 ， 而 且 无 法 获取 各 个 子 进程 
的 进程 ID。 如 果 父 进 程 想 要 跟 踊 所 有 子 进程 的 进程 ID， 那 么 它 必 须 记录 
每 次 调用 fork 的 返回 值 。 


父 进 程 中 调用 fork 之 前 打开 的 所 有 描述 符 在 fork 返 回 之 后 由 子 进程 
分 享 。 我 们 将 看 到 网 络 服务 器 利用 了 这 个 特性 : 父 进程 调用 accept 之 后 
调用 fork。 所 接受 的 已 连接 套 接 字 随 后 就 在 父 进程 与 子 进 程 之 间 共 享 。 
通常 情况 下 ， 子 进程 接着 读 写 这 个 已 连接 套 接 字 ， 父 进程 则 关闭 这 个 已 
连接 套 接 字 。 

fork 有 两 个 典型 用 法 。 

(1) 一 个 进程 创建 一 个 自身 的 副本 ， 这 样 每 个 副本 都 可 以 在 另 一 个 


副本 执行 其 他 任务 的 同时 处 理 各 目的 茶 个 操作 。 这 是 网 络 服务 器 的 典型 
用 法 。 我 们 将 在 本 书后 面 看 到 许多 这 样 的 例子 。 









































(2) —/EEREAB EET — EET. BETA BN SE BT EE BUE 2876 
调用 fork， 该 进程 于 是 首先 调用 fork 创 建 一 个 自身 的 副本 ， 然 后 其 中 一 
个 副本 (通常 为 子 进程 》 调 用 exec( 接 下 去 介绍 把 自身 替换 成 新 的 程 
序 。 这 是 诸如 shell 之 类 程序 的 典型 用 法 。 


存放 在 人 硬盘 上 的 可 执行 程序 文件 能 够 被 Unix 执 行 的 唯一 方法 是 : 由 
一 个 现 有 进程 调用 六 个 exec 函 数 中 的 某 一 个 。〔 当 这 6 个 函数 中 是 哪 一 
个 被 调用 并 不 重要 时 ， 我 们 往往 把 它们 统称 为 exec 函 数 。) exec 把 当前 
进程 映像 蔡 换 成 新 的 程序 文件 ， 而 且 该 新 程序 通常 从 main 了 水 数 开 始 执 
行 。 进 程 ID 并 不 改变 。 我 们 称 调用 exec 的 进程 为 调用 进程 (calling 
process) ， 称 新 执行 的 程序 为 新 程序 (new program) 。 


较 老 的 手册 和 书本 不 确切 地 称 新 程序 为 新 进程 (ew process) ， 这 
是 错误 的 ， 因 为 其 中 并 没有 创建 新 的 进程 。 


这 6 个 exec 函 数 之 间 的 区 别 在 于 a) 待 执行 的 程序 文件 是 由 文件 
名 (filename) 还 是 由 路 径 名 (pathname) 指定 ; (b) 新 程序 的 参数 是 
一 一 列 出 还 是 由 一 个 指针 数组 来 引用 ; (c) 把 调用 进程 的 环境 传递 给 
新 程序 还 是 给 新 程序 指定 新 的 环境 。 
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#include <unistd.h> 
int execl(const char *pathname, const char *argO, ... /* (char *) © */ ); 
int execv(const char *pathname, char *const *argv[]); 


int execle(const char *pathname, const char *argO, ... 
/* (char *) 0, char *const envp[] */ ); 


int execve(const char *pathname, char *const argv[], char *const envp[]); 
int execlp(const char *filename, const char *argO, ... /* (char *) © */ ); 
int execvp(const char *filename, char *const argv[]); 


均 返 回 : 若 成 功 则 不 返回 ， 











出 错 则 为 -1 


nz 


这 些 函 数 只 在 出 错时 才 返 回 到 调用 者 。 人 否则 ， 控 制 将 被 传递 给 新 程 
序 的 起 始点 ， 通 间 束 是 main 函 数 。 


文 些 
这 6 个 函数 间 的 关系 如 图 4-12 所 示 。 一 般 来 说 ， 只 有 execve 是 内 核 


中 的 系统 调用 ， 其 他 5 个 都 是 调用 execve 的 库 函 数 。 


— ‘ — - =s 
execlp (fie, are, 0: m (patie atg, .,,, U) | execle inath, arg, ..., U, emp 





£3 il'aczv argy Él argy 





Y — À 1 
| JR 
exezv path, argo) mem d execve (path, argu enve) 六 一 一 


"LT 









execyp ifile, argv) 





—— 











图 4-12 ”6 个 exec 函 数 的 关系 
注意 这 6 个 函数 的 下 列 区 别 。 


(1) 上 面 那 行 的 3 个 函数 把 新 程序 的 每 个 参数 字符 串 指 定 成 exec 的 一 
个 独立 参数 ， 并 以 一 个 空 指针 结束 可 变数 量 的 这 些 参数 。 下 面 那 行 的 3 
个 函数 都 有 一 个 作为 exec 参 数 的 argv 数 组 ， 其 中 含有 指向 新 程序 各 个 参 
数字 符 串 的 所 有 指针 。 既 然 没 有 指定 参数 字符 串 的 数目 ， 这 个 argv 数 组 
必须 含有 一 个 用 于 指定 其 末尾 的 空 指 针 。 


(2) 左 列 2 个 函数 指定 一 个 filename 参 数 。exec 将 使 用 当前 的 PATH 环 境 
变量 把 该 文件 名 参数 转换 为 一 个 路 径 名 。 然 而 一 旦 这 2 个 函数 的 filename 
参数 中 含有 一 个 斜 杜 OO ， 就 不 再 使 用 PATH 环境 变量 。 右 两 列 4 个 函数 
指定 一 个 全 限定 的 pathname 参 数 。 


(3) 左 两 列 4 个 函数 不 显 式 指定 一 个 环境 指针 。 相 反 ， 它 们 使 用 外 部 
变量 environ 的 当前 值 来 构造 一 个 传递 给 新 程序 的 环境 列表 。 右 列 2 个 函 
数 显 式 指定 一 个 环境 列表 ， 其 envp 指 针 数 组 必须 以 一 个 空 指针 结束 。 
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进程 在 调用 exec 之 前 HI 打开 着 的 描述 符 通 常 "m VS execZk a 过 保持 打开 。 我 
们 使 用 限定 词 “ 通 常 *? 是 因为 本 默认 行为 可 以 使 用 fcnti 设 置 FD_ CLOEXEC 描 
E inetd 服 务 器 就 利用 了 这 个 特性 ， 我 们 将 在 13.5 节 讲述 
这 一 点 

















48 ”并 发 服务 器 


图 4-11 中 的 服务 右 是 一 个 迭代 服务 右 Citerative server) 。 对 于 像 时 
间 获 取 这 样 的 简单 服务 器 来 说 ， 这 束 够 了 。 人 然而 当 服 务 一 个 客户 请 求 可 
能 花费 较 长 时 间 时 ， 我 们 并 不 希望 整个 服务 器 被 单个 客户 长 期 占用 ， 而 
是 和 希望 同时 服务 多 个 客户 。Unix 中 编写 并 发 服务 器 程序 最 简单 的 办 法 束 
是 fork 一 个 子 进程 来 服务 每 个 客户 。 图 4-13 给 出 了 一 个 典型 的 并 发 服务 
As hele MIFE BR o 








pid t pid; 
int listenfd, comnfd; 
listenfd = Socket( ... |; 
/* fill in seckaddr in[] with server's well-knewr. sort */ 
Bind(listenfd, ... ), 
Listen(lis-enfd, L^ST*NQ); 


for. (e ©) f 


connfd = Accept (listenid, ... ;j /* probably blocks */ 
iE ( (pid = Fork()) == Ol | 
Close (1-stenfd!; /* child closes listening socket 4/ 
doit (ccnnfd); /* process the raquest */ 
Clces(conntd!; {* done with this client */ 
exit (0) ; /* child termirates */ 
i 
Close (connfd); /* carent closes connected socket */ 
} 


图 4-13 ”典型 的 并 发 服务 器 程序 轮廓 


当 一 个 连接 建立 时 ，accept 返 回 ， 服 务 器 接着 调用 fork， 然 后 由 子 
进程 服务 客户 〈 通 过 已 连接 套 接 字 connfd) ， 父 进程 则 等 待 另 一 个 连接 
(通过 监听 套 接 字 iistenfd) 。 既 然 新 的 客户 直子 进程 提供 服务 ， 父 进 
程 就 关闭 已 连接 套 接 字 。 


图 4-13 中 我 们 假设 由 函数 doit 执 行 服务 客户 所 需 的 所 有 操作 。 当 该 
函数 返回 时 ， 我 们 在 子 进程 中 显 式 地 关闭 已 连接 套 接 字 。 这 一 点 并 非 必 
需 ， 因 为 下 一 个 语句 就 是 调用 exit， 而 进程 终止 处 理 的 部 分 工作 就 是 关 
多 所 有 由 内 以 打开 的 描述 等。 是 吾 显 式 调用 elose 只 和 个 人 编程 风格 有 
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我 们 在 2.6 节 说 过 ， 对 一 个 TCP 套 接 字 调用 close 会 导致 发 送 一 个 
FIN， 随 后 是 正常 的 TCP 连 接 终 止 序列 。 为 什么 图 4-13 中 父 进程 对 connfd 
调用 close 没 有 终止 它 与 客户 的 连接 呢 ? 为 了 便于 理解 ， 我 们 必须 知道 
每 个 文件 或 套 接 字 都 有 一 个 引用 计数 。 引 用 计数 在 文件 表 项 中 维护 
CAPUE 第 58 一 59 页 ) ， 它 是 当前 打开 痢 的 引用 该 文件 或 套 接 字 的 描述 
符 的 个 数 。 图 4-13 中 ，socket 返 回 后 与 listenfd 关 联 的 文件 表 项 的 引用 
计数 值 为 1。accept 返 回 后 与 connfd 关 联 的 文件 表 项 的 引用 计数 值 也 为 
1。 然 而 fork 返 回 后 ， 这 两 个 摘 述 符 就 在 父 进程 与 子 进程 间 共 享 〈 也 就 
是 被 复制 ) ， 因 此 与 这 两 个 套 接 字 相关 联 的 文件 表 项 各 自 的 访问 计数 值 
均 为 2。 这 人 么 一 来 ， 当 父 进程 关闭 connfd 时 ， 它 只 是 把 相应 的 引用 计数 
值 从 2 减 为 1。 该 套 接 字 真 正 的 清理 和 资源 释放 要 等 到 其 引用 计数 值 到 达 
0 时 才 发 生 。 这 会 在 稍 后 子 进程 也 关闭 connfd 时 发 生 。 


我 们 还 可 以 将 图 4-13 中 出 现 的 套 接 字 和 连接 用 图 示 直 观 地 表现 出 
来 。 首 先 ， 图 4-14 给 出 了 在 服务 费 阻 窗 于 accept 调 用 且 来 自 客户 的 连接 
请 求 到 达 时 客户 和 服务 器 的 状态 。 


客户 RAB 


ER 0. -- listenfd 
connect() 6-----^^ -. 


图 4-14 accept 返回 前 客户 /服务 器 的 状态 


从 accept 返 回 后 ， 我 们 立即 就 有 图 4-15 所 示 状 态 。 连 接 和 被 内 核 接 
> 
读 写 数据 。 


listenfd 
-连接 
erat ee connfd 


图 4-15 ”accept 返 回 后 客户 /服务 器 的 状态 
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connect () 





并 发 服务 器 的 下 一 步 是 调用 fork， 图 4-16 给 出 了 从 fork 返 回 后 的 状 


客户 服务 器 ( 父 进 程 ) 












连接 listenfd 
connect () 





ei e RS 
\ ET. connfd 
xA 
P" 
NC 
SN 
N 
E 
E 服务 器 | ( 子 进程 ) 
s listen£d 


connfd 


图 4-16 fork 返回 后 客户 /服务 器 的 状态 


注意 ， 此 时 1istenfd 和 connfd 这 两 个 描述 符 都 在 父 进 程 和 子 进程 之 
BRE RH) 。 


再 下 一 步 是 由 父 进程 关闭 已 连接 套 接 字 ， 由 了 于 进程 关闭 监听 套 接 
字 ， 如 图 4-17 所 示 。 


客户 nts dS CERRO 










e listenfd 
ccnnect(! 


NL 服务 器 〔〈 子 进程 ) 




















图 4-17 父子 进程 关闭 相应 套 接 字 后 客户 /服务 器 的 状态 


这 是 这 两 个 套 接 字 所 期 望 的 最 终 状态 。 子 进程 处 理 与 客户 的 连接 ， 
父 进程 则 可 以 在 监听 套 接 字 上 再 次 调用 accept 来 处 理 下 一 个 客户 连接 。 
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4.9 closerk 2X 
通常 的 Unix close A ARABS, JPERIETCPÓXERE. 


#include <unistd.h> 
int close(int sockfd); 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 








close 一 个 TCP 套 接 字 的 默认 行为 是 把 该 套 接 字 标记 成 已 关闭 ， 然 
后 立即 返回 到 调用 进程 。 该 套 接 字 描 述 符 不 能 再 由 调用 进程 使 用 ， 也 就 
是 说 它 不 能 再 作为 read 或 write 的 第 一 个 参数 。 然 而 TCP 将 尝试 发 送 已 排 
队 等 待 发 送 到 对 端的 任何 数据 ， 发 送 完毕 后 发 生 的 是 正常 的 TCP 连 接 终 
止 序列 (2.6 节 ) 。 


我 们 将 在 7.5 节 介绍 的 so_LINGER 套 接 字 选项 可 以 用 来 改变 TCP 套 接 
字 的 这 种 默认 行为 。 我 们 还 将 在 那 节 介绍 TCP 应 用 进程 必须 怎么 做 才能 
确信 对 端 应 用 进程 已 收 到 所 有 未 处 理 数据 。 


摘 述 符 引 用 计数 


在 4.8 节 末尾 我 们 提 到 过 ， 并 发 服务 右 中 父 进程 关闭 已 连接 套 接 字 
只 是 导致 相应 描述 符 的 引用 计数 值 减 1。 既 然 引 用 计数 值 仍 大 于 0， 这 
个 close 调 用 并 不 引发 TCP 的 四 分 组 连接 终止 序列 。 对 于 父 进程 与 子 进 
程 共 诗 已 连接 套 接 字 的 并 发 服务 器 来 说 ， 这 正 是 所 期 望 的 。 


如 果 我 们 确实 想 在 某 个 TCP 连 接 上 发 送 一 个 FIN， 那 么 可 以 改 
HishutdownrAZ (6.6 节 ) 以 代替 close。 我 们 将 在 6.5 节 阐述 这 么 做 的 动 
机 。 


我 们 还 得 清楚 ， 如 果 父 进程 对 每 个 由 accept 返 回 的 已 连接 套 接 字 都 
不 调用 close， 那 么 并 发 服务 器 中 将 会 发 生 什 么 。 首先 ， 父 进程 最 终 将 
耗 太 可 用 描述 待 ， 因 为 任何 进程 在 任何 时 刻 可 拥有 的 打开 着 的 描述 符 数 
通常 是 有 限制 的 。 不 过 更 重要 的 是 ， 没 有 一 个 客户 连接 会 被 终止 。 当 子 
进程 关闭 已 连接 套 接 字 时 ， 筷 的 引用 计数 值 将 由 2 递减 为 1 且 保 持 为 1， 
因为 父 进程 永 不 关闭 任何 已 连接 套 接 字 。 这 将 妨碍 TCP 连 接 终止 序列 的 
发 生 ， 导 致 连接 一 直 打 开 着 。 




















4.10 getsockname fil getpeername chi Zi 


这 两 个 函数 或 者 返回 与 某 个 套 接 字 关联 的 本 地 协议 地 址 
(getsockname) ， 或 者 返回 与 某 个 套 接 字 关联 的 外 地 协议 地 址 


(getpeername) . 
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#include <sys/socket.h> 
int getsockname(int sockfd, struct sockaddr *localaddr, socklen t *addrlen); 
int getpeername(int sockfd, struct sockaddr *peeraddr, socklen t *addrlen); 
均 返 回 : 若 成 功 则 为 9， 若 出 错 则 为 -1 

















注意 ， 这 两 个 函数 的 最 后 一 个 参数 都 是 值 -结果 参数 。 这 葡 是 说 ， 
"e 数 都 得 装填 由 1ocaladdr 或 peeraddr 指 针 所 指 的 套 接 字 地 址 结 

讨论 bind 时 我 们 提 到 ， 使 用 “name”( 名 字 ) 一 词 令 人 误解 。 这 两 个 
函数 返回 与 菏 个 网 络 连接 的 两 端 中 任何 一 并 相 关联 的 协议 地 址 ， 对 于 
IPV4 和 IPv6 来 说 ， 就 是 JP 地址 和 端口 号 的 组 合 。 这 两 个 函数 与 域名 第 9 
章 ) 没有 任何 联系 。 


需要 这 两 个 函数 的 理由 如 下 所 述 。 





e 在 一 个 没有 调用 bind 的 TCP 客 户 上 ，connect 成 功 返回 

后 ，getsockname 用 于 返回 由 内 核 研 予 该 连接 的 本 地 卫 地 址 和 本 地 端 
HS. 

。 在 以 端口 号 0 调用 bind【〈 告 知 内 核 去 选择 本 地 端口 号 ) 

后 ，getsockname 用 于 返回 由 内 核 赋 予 的 本 地 端口 号 。 

e getsockname 可 用 于 获取 某 个 套 接 字 的 地 址 族 ， 如 图 4-19 所 示 。 

e 在 一 个 以 通 配 卫 地 址 调用 bind 的 TCP 服 务 器 上 《图 1-9) ， 与 某 个 客 
户 的 连接 一 旦 建立 〈accept 成 功 返 回 ) ，getsockname 吏 可 以 用 于 返 
回 由 内 核 研 予 该 连接 的 本 地 耳 地 址 。 在 这 样 的 调用 中 ， 套 接 字 描述 
符 参 数 必须 是 已 连接 套 接 字 的 描述 符 ， 而 不 是 监听 套 接 字 的 描述 


^x 
o 


^l 





° 当 一 个 服务 器 是 由 调用 过 accept 的 某 个 进程 通过 调用 exec 执 行程 序 
时 ， 它 能 够 获取 客户 身份 的 唯一 途径 便 是 调 
用 getpeername。inetd (13.5413) fork 并 exec 革 个 TCP 服 务 器 程序 时 
就 是 如 此 情形 ， 如 图 4-18 所 示 。inetd 调 用 accept (7; EZ;Z7; E) 3k 
回 两 个 值 : 已 连接 套 接 字 描 述 符 connfd， 这 是 函数 的 返回 值 ， 客户 
的 卫 地 址 及 端口 号 ， 如 图 中 标 有 “对 端 地 址 ”的 小 方 框 所 示 〈 人 代表 一 
个 网 际 网 套 接 字 地 址 结构 ) 。inetd 随 后 调用 fork， 派 生出 inetd 的 
一 个 子 进 程 。 既 然 子 进程 起 始 于 父 进程 的 内 存 映像 的 一 个 副本 ， 父 
进程 中 的 那个 套 接 字 地 址 结构 在 子 进程 中 也 可 用 ， 那 个 已 连接 套 接 
字 描 述 符 也 是 如 此 《因为 描述 符 在 父子 进程 之 间 是 共享 的 ) 。 然 而 
当 子 进程 调用 exec 执 行 真正 的 服务 器 程序 〈( 壁 如 说 Telnet 服 务 器 程 
FR) 时 ， 子 进程 的 内 存 映像 被 蔡 换 成 新 的 Telnet 服 务 器 的 程序 文件 
(也 就 是 说 包含 对 端 地 址 的 那个 套 接 字 地 址 结构 就 此 丢失 ) ， 不 过 
那个 已 连接 套 接 字 描 述 符 跨 exec 继 续 保 持 开 放 。Telnet 服 务 器 首先 
调用 的 函数 之 一 便 是 getpeername， 用 于 获取 客户 的 也 地 址 和 端口 
ic 























inctd inctd FHR) 
«rid | cp bi 
| mum 
fork 

connid® = accept | | ) connfde 
lexec 
Telietli 57 25 

connfà 





图 4-18 inetd 派 生 服 务 器 的 例子 


显然 ， 最 后 一 个 例子 中 的 Telnet 服 务 器 必须 在 启动 之 后 获取 connfd 
的 值 。 获 取 该 值 有 两 个 常用 方法 。 第 一 种 方法 是 ， 调 用 exec 的 进程 可 以 
把 这 个 描述 符号 格式 化 成 一 个 字符 串 ， 再 把 它 作为 一 个 命令 行 参 数 传递 
给 新 程序 。 第 二 种 方法 是 ， 约 定 在 调用 exec 之 前 ， 总 是 把 某 个 特定 描述 





符 置 为 所 接受 的 已 连接 套 接 字 的 描述 符 。inetd 有 条 用 的 是 第 二 种 方法 ， 
它 总 是 把 摘 述 符 0、1 和 2 置 为 所 接受 的 已 连接 套 接 字 的 描述 符 。 


例子 : 获取 套 接 字 的 地 址 族 


图 4-19 中 所 示 的 sockfd_to_family 了 水 数 返回 某 个 套 接 字 的 地 址 族 。 


lib/sockfd to. famib.c 








1 #incluce "unp. LH" 

2 int 

3 socktd tc tarily(int socktd) 

4 1 

sU: sockeadr st Wage SS; 

sccklen t ler; 

len = gizeož (sc); 

iE (aetsockname(sozkEd. (SA +) sss, &len) < 0) 
returní-1); 


returniss.es family); 


lib/sockfd to famih.c 
图 4-19 ”返回 套 接 字 的 地 址 族 
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为 最 大 的 套 接 字 地 址 结构 分 配 空间 


5 既然 不 知道 要 分 配 的 套 接 字 地 址 结构 的 类 型 ， 我 们 于 是 采 
用 sockaddr_storage 这 个 通用 结构 ， 因 为 它 能 够 承载 系统 支持 的 任何 套 
接 字 地 址 结构 。 





调用 getsockname 

7-10 我们 调用 getsockname 返 回 地 址 族 。 既 然 POSIX 规 范 允 许 对 未 
绑 定 的 套 接 字 调 用 getsockname， 该 函数 应 该 适合 任何 已 打开 的 套 接 字 
描述 符 。 


411 小 结 


所 有 客户 和 服务 器 都 从 调用 socket 开 始 ， 它 返回 一 个 套 接 字 描 述 
符 。 客 户 随 后 调用 connect， 服 务 器 则 调用 bind、1Listen 和 accept。 套 接 
字 通 常 使 用 标准 的 close 函 数 关 闭 ， 不 过 我 们 将 看 到 使 用 shutdown 函 数 
关闭 套 接 字 的 另 一 种 方法 〈6.6 节 ) ， 我 们 还 要 查看 so_LINGER 套 接 字 选 
项 对 于 关闭 套 接 字 的 影响 (7.57) 。 


大 多 数 TCP 服 务 器 是 并 发 的 ， 它 们 为 每 个 待 处 理 的 客户 连接 调 
用 fork 派 生 一 个 子 进 程 。 我 们 将 看 到 ， 大 多 数 UDP 服务 器 却 是 迭代 的 。 
尽管 这 两 个 模型 已 经 成 功 地 运用 了 许多 年 ， 我 们 仍 将 在 第 30 章 中 探讨 使 
用 线程 和 进程 的 其 他 服务 器 程序 设计 方法 。 








习题 


41 在 4.4 节 中 ， 我 们 说 头 文 件 <netinet/in.h> 中 定义 的 INADDR_ 7$ 
值 是 主机 字 节 序 的 。 我 们 应 该 如 何 辨 别 ? 


42 ”把 图 1-5 改 为 在 connect 成 功 返 回 后 调用 getsockname。 使 
用 sock_ntop 显 示 赋 予 TCP 套 接 字 的 本 地 了 PP 地址 和 本 地 端口 号 。 你 的 系统 
的 临时 端口 在 什么 范围 内 (图 2-10〉 ? 


43 在 一 个 并 发 服务 器 中 ， 假 设 fork 调 用 返回 后 子 进程 先 运行 ， 而 
且 子 进程 随后 在 fork 调 用 返回 父 进 程 之 前 就 完成 对 客户 的 服务 。 图 4-13 
中 的 两 个 close 调 用 将 会 发 生 什 么 ? 


44 在 图 4-11 中 ， 先 把 服务 器 的 端口 号 从 13 改 为 9999〈 这 样 不 需要 
超级 用 户 特权 就 能 启动 程序 ) ， 再 删 掉 1isten 调 用 ， 将 会 发 生 什么 ? 


45 继续 上 一 题 。 删 掉 bind 调 用 ， 但 是 保留 listen 调 用 ， 又 将 发 生 
什么 ? 
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OHH Cbinding) 操作 涉及 三 个 对 象 : BHF GEXTI API 中 为 端 


点 ) 、 地 址 及 端口 。 其 中 套 接 字 是 捆绑 的 主体 ， 地 址 和 端口 是 捆绑 在 套 
接 字 上 的 客体 。 由 于 涉及 对 象 较 多 ， 我 们 先 在 这 里 澄清 各 种 说 法 : 

(1) “捆绑 地 址 A 和 /或 端口 P 到 套 接 字 S”。 同 义 说 法 还 有 : “把 地 址 A 和 / 
Big PIAA BE eS”, “给 套 接 字 S 捆 绑 地 址 A 和 /或 端口 P"”， 等 等 。 
(2)“ 跟 端口 P〈 地 址 A) 一 块 捆绑 地 址 A“〈 端 口 P) ”。 绑 定 (bound) 
表示 捆绑 成 功 后 的 状态 ， 它 的 各 种 说 法 如 下 : 《1)“ 绑 定 地 址 A 和 /或 端 
口 P 的 套 接 字 ”。 〈2)“ 套 接 字 S 上 绑 定 的 地 址 或 端口 ”。 GB) “CRER 
地 址 或 端口 >。 也 就 是 说 该 地 址 或 端口 己 为 某 个 套 接 字 所 用 。 (4)“ 跟 
端口 P (地 址 A) 一 块 绑 定 的 地 址 GEO". (5)“ 套 接 字 S 已 绑 定 ”。 
相反 的 说 法 是 “ 套 接 字 S 未 绑 定 ”。 


@ 本 书 往 后 频繁 使 用 到 达 (arriving) 和 接收 (received). 这 两 个 修饰 
词 ， 它 们 具有 相同 的 含义 ， 只 是 视角 不 同 而 已 。 壁 如 说 一 个 分 组 的 到 达 














接口 和 接收 接口 指 的 是 同一 个 接口 ， 前 者 在 接收 主机 以 外 看 待 这 个 接 
口 ， 后 者 在 接收 主机 以 内 看 待 这 个 接口 。 与 这 两 个 修饰 词 同 义 或 近 义 的 
还 有 外 来 (incoming 或 inbound) ， 反 义 的 有 外 出 〈outgoing 或 
outbound) 和 发 送 (sending 或 sent) 。 其 中 received 和 sent 根 据 情 况 也 译 
为 所 接收 的 和 所 发 送 的 ， 或 为 〈 所 ) 收取 的 和 CAT) 送出 的 。 译 者 
注 








第 5 章 “TCP 和 客户/ 服务 器 程序 示例 


5.1 概述 
我 们 将 在 本 章 使 用 前 一 章 中 介绍 的 基本 函数 编写 一 个 完整 的 TCP 客 
人 这 个 简单 的 例子 是 执行 如 下 步骤 的 一 个 回 射 服务 
(1) 客户 从 标准 输入 读 入 一 行文 本 ， 并 写 给 服务 器 ; 
(2) 服务 器 从 网 络 输入 读 入 这 行文 本 ， 并 回 射 给 客户 ; 
(3) 客户 从 网 络 输入 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 。 


Ma 并 标 出 了 用 于 输入 和 输出 的 










标准 输入 
TCP IR Hate 









标准 输出 readlinc 











图 5-1 简单 的 回 射 客户 /服务 器 











我 们 在 客户 与 服务 器 之 间 男 了 两 个 箭头 ， 不 过 它们 实际 上 构成 一 个 
全 双 工 的 TCP 连 接 。fgets 和 fputs 这 两 个 函数 来 自 标准 WO 函数 
库 ，writen 和 readline 这 两 个 函数 详 见 3.9 节 。 


尽管 我 们 将 开发 自己 的 回 射 服务 器 实现 ， 大 多 数 TCP/IP 实 现 却 已 经 
提供 了 这 样 的 服务 器 ， 既 有 使 用 TCP 的 ， 又 有 使 用 UDP 的 (2.1247) 。 
我 们 还 将 与 自己 的 客户 一 道 使 用 这 些 服务 器 。 
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回 射 输入 行 这 样 一 个 客户 /服务 喜 程 序 是 一 个 尽管 简单 然而 有 效 的 
网 络 应 用 程序 例子 。 实 现任 何 客户 /服务 器 网 络 应 用 所 需 的 所 有 基本 步 


Be PY IAS BUT EID S. a EE AS TIT I JR EIL IN MAE RA fa 
修改 服务 器 对 来 自 客 户 的 输入 的 处 理 过 程 。 


除了 以 正 稼 的 方式 运行 本 例子 的 客户 和 服务 右 《〈“ 即 键入 一 行文 本 并 
WE CHIT) 之 外 ， 我 们 还 会 探讨 它 的 许多 边界 条 件 : 客户 和 服务 器 
JANIS RATA? 客户 正常 终止 时 发 生 什 么 ? 大 服务 器 进程 在 客户 之 前 
终止 ， 则 客户 会 发 生 什么 ?大 服务 器 主机 衣 尝 ， 则 客户 发 生 什么 ”如 此 
等 等 。 通 过 观察 这 些 情形 ， 弄 清 在 网 络 层次 发 生 什么 以 及 它们 如 何 反 映 
到 和 套 接 字 API， 我 们 将 更 多 地 理解 这 些 层次 的 工作 原理 ， 并 体会 如 何 编 
写 应 用 程序 代码 来 处 理 这 些 情形 。 


在 所 有 这 些 例子 中 ， 我 们 把 诸如 地 址 和 端口 之 类 特定 于 协议 的 常 值 
硬 编写 到 代码 中 。 这 么 做 有 两 个 原因 : 一 是 我 们 必须 确切 了 解 在 特定 于 
协议 的 地 址 结构 中 应 存放 什么 内 容 ; 二 是 我 们 尚未 讨论 到 可 以 使 得 代码 
更 便于 移植 的 库 冰 数 ， 这 些 库 函数 将 在 第 11 章 中 讨论 。 


我 们 现在 就 留意 ， 随 着 学 习 越 来 越 多 的 网 络 编程 知识 ， 我 们 将 在 后 
续 各 章 中 多 次 修改 本 章 的 客户 和 服务 器 程序 〈 图 1-12 和 图 1-13) 。 








5.2 ITCP 回 射 服务 磺 程 序 : mainek žr 


我 们 的 TCP 客 户 和 服务 器 程序 遵循 图 4-1 所 示 的 函数 调用 流程 。 图 5- 
2 给 出 了 其 中 的 并 发 服务 器 程序 。 


tzecliservitepservül.c 





1 finclude "ung. lhi" 

2 int 

3 main(int argc, char *^argu) 

a { 

5 int listentd, conn?d: 

€ pid t childpid; 

7 Sccklen t cli-cn; 

€ Scract sockacdr in cliaddr, servaddr; 


listenfd = Sccket!AP INET, SOCK SIRZAM, 01; 


10 bzero(&servacdr, sizeofise-va2dr]); 

11 servackl-.sin family = AF TNET; 

12 serval. sin a dr * eddr = titan) (TNADNR_ANY) ; 

13 servaddr sin port = htons(SERV FORT); 

14 Bind!listentóG, (šA *) aservaddr, sizeof (servedsr)); 

15 Listenilistentz, LISTENOQ!; 

16 fov ge VA 

17 cli.sn = sizeoficlisdair); 

18 cocnfd - Accepzilistenfa, [SA *!| &cliaddr, &clilen!; 

19 i= { (childpid = Fork() == 0) | /* child process */ 
20 Close'!l-stenfd,|; /* close listening socket */ 
21 sbr eeno(connfa) : /* process the request */ 

22 exir (Q); 

23 

a4 Ulese (connEd! ; /* parent closes connected socket */ 
us } 

26 | 


topeliservtepservl.c 


图 5-2 TCP 回 射 服务 器 程序 (在 图 5-12 中 会 有 所 改进 ) 
创建 套 接 字 ， 捆 绑 服务 器 的 众所周知 端口 


9-15 ”创建 一 个 TCP 套 接 字 。 在 待 捆 绑 到 该 TCP 套 接 字 的 网 际 网 套 
接 字 地 址 结构 中 填 入 通 配 地 址 (INADDR_ANY) 和 服务 器 的 众所周知 端口 
CSERV_PORT， 在 头 文 件 unp.h 中 其 值 定 义 为 9877) 。 捆 绑 通 配 地 址 是 在 
告知 系统 : 要 是 系统 是 多 窒 主 机 ， 我 们 将 接受 目的 地 址 为 任何 本 地 接口 
的 连接 。 我 们 对 TCP 端 口号 的 选择 基于 图 2-10。 它 应 该 比 1023 大 我 们 
不 需要 一 个 保留 端口 ) ， 比 5000 大 《以 免 与 许多 源 自 Berkeley 的 实现 分 
配 临 时 端口 的 范围 冲突 ) ， 比 49152 小 《以 免 与 临时 端口 号 的 “正确 ” 范 
围 冲突 )， 而 且 不 应 该 与 任何 已 注册 的 端口 冲突 。listen 把 该 套 接 字 转 





换 成 一 个 监听 套 接 字 。 
等 待 完成 客户 连接 

17-48 ”服务 器 阻塞 于 accept 调 用 ， 等 待 客户 连接 的 完成 。 
并 发 服务 器 

19-24 ”fork 为 每 个 客户 派生 一 个 处 理 它们 的 子 进程 。 正 如 我 们 在 


4.8 节 讨论 的 那样 ， 子 进程 关闭 监听 套 接 字 ， 父 进程 关闭 已 连接 套 接 
字 。 子 进程 接着 调用 str_echo (85-3) 处 理 客 户 。 








5.3 TCP 回 射 服务 器 程序 str echorA ZW 


图 5-3 所 示 的 str_echoE s A EE 的 服务 : Me PBA BL 
据 ， 并 把 它们 回 射 给 客户 。 


'ib/str. ecito.c 





1 H.uclude "uup.l* 
2 void 

3 str echo(int sockfd) 
4 | 


ssizc t n; 
char buf [MAXLINE] ; 


while ( (n = readisockfd. buf, MAXLINE)! > 0) 


5 
6 
7 agala: 
8 
y writen(sockfd, ruf, ni; 


1U i= (n < Ù && errno == EINTR) 

11 goto again; 

12 else if (n < 0) 

13 err sysi"str echo: read error’): 
14 } 


libhsi echo.c 


图 5-3 str echorRZg: 在 套 接 字 上 回 射 数据 
读 入 绥 冲 区 并 回 射 其 中 内 容 


8~9 read 函数 从 套 接 字 读 入 数据 ，writen 函 数 把 其 中 内 容 回 射 给 
客户 。 如 果 客 户 关 闭 连 接 GG IE TE T DL) i eg MA 
SARS Z8 PERE read eh ZR IRIO, MS Mstr_echori WH 3 
从 而 在 图 5-2 中 终止 子 进程 。 
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5.4 TCPH NSA: mainek ži 
图 5-4 所 示 为 TCP 客 户 的 main 函 数 。 


tcpclisenvtepelill.c 


1 include "unp. li" 

2 int 

3 main(int arc, cher **argu) 

a 1 

5 int sockfd; 

€ SLrJcz sockacdr in  servazcdr; 

5 LE (argc !- 2! 

£ ezr suit ("usage: tepeli eIPadüdress»"); 

9 suck{[d = Sockel (AF_INET, SOCK STREAM, 0!; 

10 bzero(&servacdr, sizeof!serzvaddr!); 

11 servadd-.sin family = AF INET; 

12 servaddr.sin port = Atons{SERV FORT) ; 

13 Inct_pton{AF_INET, arqv[1], &servaddr.sin_add=) ; 
14 Connect (sockfd, (S^ *) &cexwaddr, cizeoficervaddr)) ; 
15 err cli(scdin, ecckfd): /* do it ail */ 
16 exitio); 

17 j 


tenclisenwtepeli0l.c 


图 5-4 TCP A PRE 
创建 套 接 字 ， 装 填 网 际 网 套 接 字 地 址 结构 


9-13 ”创建 一 个 TCP 套 接 字 ， 用 服务 器 的 卫 地 址 和 端口 号 装填 一 个 
网 际 网 套 接 字 地 址 结构 。 我 们 可 从 命令 4 J 参数 取得 服务 器 的 IP 地 址 ， 从 
头 文 件 unp.h 取 得 服务 器 的 众所周知 端口 号 (SERV_PORT) o 


XE Pc BY ARS a 


14~15 “ connect 建立 与 服务 器 的 连接 。str_cli 函 数 〈 图 5-5) 完成 
剩余 部 分 的 客户 处 理工 作 。 





55 TCP 回身 客户 程序 str clipRgj2 

图 5-5 所 示 的 str_c1Li 图 数 完成 客户 处 理 循 环 : 从 标准 输入 读 入 一 行 
读 回 服务 器 对 该 行 的 回 射 ， 并 把 回 射 行 写 到 标准 
Bi o 








lib/sir clic 

1 include I 
2 vaid 
3 str cli(FILE *fp, int sockf3) 
| 
5 char sendline [MAXLINE], recvline [MAXLINE] ; 
6 waile (Paets(sendline, MAXLING. fp) !- NULL! | 
7 Writen{socsfd, sendline, strlen(sendlire)!; 
8 i= [Readlinae(sockfd, recvline, MAXLIN E) -- 0) 
9 z c quit("str cli: | server ber ated prema-uvely"); 
10 Fputs(recvline, stdout!; 

1 


12 : 
lib/eir elic 














图 5-5 str cliPAZX: 客户 处 理 循环 
读 入 一 行 ， 写 到 服务 器 
6~7 fgets 读 入 一 行文 本 ， writenjtliz4T A5 Hk He o 








从 服务 器 读 入 回 射 行 ， 写 到 标准 输出 
8-10 readline 从 服务 器 读 入 回 射 行 ，fputs 把 它 写 到 标准 输出 。 
回 到 main 函 数 


11-12 “ 当 遇 到 文件 结束 符 或 错误 时 ，fgets 将 返回 一 个 空 指针 ， 于 
是 客户 处 理 循环 终止 。 我 们 的 Fgets 包 衰 函 数 检查 是 否 发 生 错 误 ， 若 发 
生 则 中 止 进程 ， 因 此 Fgets 只 是 在 过 到 文件 结 符 时 才 返 回 一 个 空 指 


Fe 
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5.6 ”正常 启动 


尽管 我 们 的 TCP 程 序 例子 很 小 (两 个 main 函 数 
加 str_echo、str_cli、readline 和 writen， 总 共 约 150 行 代码 ) ， 然 而 
对 于 我 们 弄 清 客户 和 服务 器 如 何 局 动 ， 如 何 终 止 ， 更 为 重要 的 是 当 发 生 
某 些 错误 (例如 客户 主机 朋 涝 、 客 户 进 程 衣 沉 、 网 络 连 接 断 开 ， 等 等 ) 
时 将 会 发 生 什么 ， 本 例子 却 至 关 和 重要。 只 有 搞 清 这 些 边界 条 件 以 及 它们 
与 TCP/IP 协 议 的 相互 作用 ， 我 们 才能 写 出 能 够 处 理 这 些 情 况 的 健壮 的 客 
户 和 服务 器 程序 。 


首先 ， 我 们 在 主机 linux 上 后 台 启 动 服务 器 。 


linux % tcpserv01 & 
[1] 17870 





服务 器 启动 后 ， 它 调用 socket、bind、1listen 和 accept， 并 阻塞 于 
accept 调 用 。 (我们 还 没有 启动 客户 ，。 在 启动 客户 之 前 ， 我 们 运 
行 netstat 程 序 来 检查 服务 器 监听 套 接 字 的 状态 。 


linux % netstat -a 

Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 9 *:9877 me LISTEN 





我 们 这 里 只 给 出 了 输出 的 第 一 行 〈 标 题 ) 以 及 我 们 最 关心 的 那 一 
行 。 本 命令 列 出 系统 中 所 有 套 接 字 的 状态 ， 可 能 有 大 量 输出 。 我 们 必须 
指定 -a 标 志 以 查看 监听 套 接 字 。 


这 个 输出 正 是 我 们 所 期 望 的 : 有 一 个 套 接 字 处 于 LISTEN 状 态 ， 它 


有 通 配 的 本 地 IP 地 址 ， 本 地 端口 为 9877。netstat 用 星 号 “*” 来 表示 一 个 
为 0 的 IP 地 址 (INADDR_ANY， 通 配 地 址 ) 或 为 0 的 端口 号 。 


我 们 接着 在 同一 个 主机 上 启动 客户 ， 并 指定 服务 占 主 机 的 IP 地 址 为 
127.0.0.1〈 环 回 地 址 ) 。 当 然 我 们 也 可 以 指定 该 地 址 为 该 主机 的 普通 
( 非 环 回 ) IP 地 址 。 


linux % tcpcli01 127.0.0.1 














客户 调用 socket 和 connect， 后 者 引起 TCP 的 三 路 握手 过程。 当 三 路 
握手 完成 后 ， 客 户 中 的 connect 和 服务 器 中 的 accept 均 返回 ， 连 接 于 是 
建立 。 接 着 发 生 的 步 又 如 下 : 


(1) 客户 调用 str_cli 函 数 ， 该 函数 将 阻塞 于 fgets 调 用 ， 因 为 我 们 还 
未 曾 键 入 过 一 行文 本 。 


(2)” 当 服务 器 中 的 accept 返 回 时 ， 服 务 器 调用 fork， 再 由 子 进程 调 
用 str_echo。 该 函数 调用 readline，readline 调 用 read， 而 read 在 等 待 
客户 送 入 一 行文 本 期 间 阻 塞 。 


(3) ”为 一 方面 ， 服 务 嚣 父 进 程 再 次 调用 accept 并 阻 窒 ， 等 每 下 一 个 
客户 连接 。 
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至 此 ， 我 们 有 3 个 都 在 睡 虐 〈 即 已 阻塞 ) 的 进程 : 客户 进程 、 服 务 
铝 父 进程 和 服务 器 子 进程 。 


当 三 路 握手 完成 时 ， 我 们 特意 首先 列 出 客户 的 步 又 ， 接 着 列 出 服务 
器 的 步骤 。 从 图 2-5 中 可 知 其 原因 : 客户 接收 到 三 路 握手 的 第 二 个 分 节 
时 ，connect 返 回 ， 而 服务 器 要 直到 接收 到 三 路 握手 的 第 三 个 分 节 才 返 
回 ， 即 在 connect 返 回 之 后 再 过 一 半 RTT 才 返回 。 


我 们 特意 在 同一 个 主机 上 运行 客 尸 和 服务 器 ， 因 为 这 是 试验 客户 / 
服务 器 应 用 程序 的 最 简单 方法 。 既 然 我 们 是 在 同一 个 主机 上 运行 客 尸 和 
服务 器 ，netstat 给 出 了 对 应 所 建立 TCP 连 接 的 两 行 额外 的 输出 。 


linux % netstat -a 
Active Internet connections (servers and established) 











Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 9 localhost:9877 localhost:42758 ESTABLISHED 
tcp 0 9 localhost:42758 localhost:9877 ESTABLISHED 
tcp 0 9 *:9877 Eit LISTEN 


第 一 个 ESTABLISHED 行 对 应 于 服务 占 子 进程 的 套 接 字 ， 因 为 它 的 
本 地 端口 号 是 9877; 第 二 个 ESTABLISHED 行 对 应 于 客户 进程 的 套 接 
字 ， 因 为 它 的 本 地 端口 号 是 42758。 要 是 我 们 在 不 同 的 主机 上 运行 客户 
和 服务 器 ， 那 么 客户 主机 就 只 输出 客户 进程 的 套 接 字 ， 服 务 器 主机 也 只 
输出 两 个 服务 器 进程 〈 一 个 父 进程 一 个 子 进程 ) 的 套 接 字 。 





我 们 也 可 用 ps 命令 来 检查 这 些 进 程 的 状态 和 关系 。 


linux % ps -t pts/6 -0 pid,ppid,tty,stat,args, wchan 





PID PPID TT STAT COMMAND WCHAN 
22038 22036 pts/6 S -bash wait4 
17870 22038 pts/6 S ./tcpserv01 wait for connect 
19315 17870 pts/6 S ./tcpserv01 tcp data wait 
19314 22038 pts/6 S ./tcpclio1 127.0 read chan 


(我 们 已 使 用 ps 相当 特定 的 命令 行 参 数 限定 它 只 输出 与 本 讨论 相关 
的 信息 。) 从 输出 中 可 见 ， 客 户 和 服务 器 运行 在 同一 个 窗口 中 
( 即 pts/6， 表 示 伪 终端 号 6) 。PID 和 PPID 列 给 出 了 进程 间 的 父子 关 
系 。 由 于 子 进程 的 PPID 是 父 进 程 的 PID， 我 们 可 以 看 出 ， 第 一 
个 tcpservg61 行 是 父 进程 ， 第 二 个 tcpserv6d 行 是 子 进程 。 而 父 进程 的 
PPID 是 shell (bash) 。 


我 们 所 有 三 个 网 络 进 程 的 STAT 列 都 是 “Ss”"， 表 明 进 程 在 为 等 待 某 些 
资源 而 睡眠 。 进 程 处 于 睡眠 状态 时 WCHAN 列 指出 相应 的 条 件 。Linux 在 
进程 阻塞 于 accept 或 connect 时 ， 输 出 wait_for_connect; 在 进程 阻塞 于 
套 接 字 输入 或 输出 时 ， 输 出 tcp_data_wait; 在 进程 阻塞 于 终端 IO 时 ， 
输出 r 。 这 里 我 们 的 三 个 网 络 进程 的 WCHAN 值 所 表示 的 意义 一 
HI. 
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5.7 正常 终止 


至 此 连接 已 经 建立 ， 不 论 我 们 在 客户 的 标准 输入 中 键入 什么 ， 痢 会 
回 射 到 它 的 标准 输出 中 。 























linux % tcpcliO1 127.0.0.1 我 们 已 经 给 出 过 本 行 

hello, world 现在 键入 这 一 行 

hello, world 这 一 行 被 回 射 回来 

good bye 

good bye 

^D <Ctrl+D> 是 我 们 的 终端 EOF 字 符 








我 们 键入 两 行 ， 每 行 都 得 到 回 射 ， 我 们 接着 键入 终端 EOF 字 符 
(Control-D) 以 终止 客户 。 此 时 如 果 立 即 执行 netstat 命 令 ， 我 们 将 看 
到 如 下 结果 : 

linux % netstat -a | grep 9877 


tcp 0 © *:9877 MASS LISTEN 
tcp 0 © localhost:42758 localhost:9877 TIME WAIT 





当前 连接 的 客户 端 〈 它 的 本 地 端口 号 为 42758) BEA f TIME WAIT 
TRAS (2.775) ， 而 监听 服务 露 仍 在 等 待 另 一 个 客户 连接 。《〈 这 回 我 们 
让 命令 netstat 的 笨 出 通过 管道 作为 grep 的 输入 ， 从 而 只 输出 与 服务 融 
的 众所周知 端口 相关 的 文本 行 。 这 样 做 也 删 掉 了 标题 行 。) 


我 们 可 以 总 结 出 正常 终止 客户 和 服务 器 的 步骤 。 


(1) 当 我 们 键入 EOF 字 符 时 ，fgets 返 回 一 个 空 指 针 ， 于 是 str_cli 函 
数 (图 5-5) 返回 。 


(2) 当 str_cli 返 回 到 客户 的 main 函 数 〈 图 5-4) 时 ，main 通 过 调 
用 exit 终 止 。 


(3) 进程 终止 处 理 的 部 分 工作 是 关闭 所 有 打开 的 描述 符 ， 因 此 客户 
打开 的 套 接 字 由 内 核 关 团 。 这 导致 客户 TCP 发 送 一 个 FIN 给 服务 器 ， 服 
务 器 TCP 则 以 ACK 响 应 ， 这 就 是 TCP 连 接 终止 序列 的 前 半 部 分 。 至 此 ， 
服务 器 套 接 字 处 于 CLOSE_WAIT 状 态 ， 客 户 套 接 字 则 处 于 FIN_WAIT _2 
状态 〈 图 2-4 和 图 2-5) 。 








(4) SARA SSTCPBEUKFINHI, HRA ait Pik FEE F readline dal H 
(图 5-3) ， 于 是 readline 返 回 0。 这 导致 str_echo 函 数 返 回 服务 器 子 进 
程 的 main 函 数 。 


(5) 服务 器 子 进程 通过 调用 exit 来 终止 《图 5-2) 。 


(6) ”服务 器 子 进程 中 打开 的 所 有 描述 符 随 之 关闭 。 由 子 进程 来 关闭 
已 连接 套 接 字 会 引发 TCP 连 接 终止 序列 的 最 后 两 个 分 节 : 一 个 从 服务 器 
到 客户 的 FIN 和 一 个 从 客户 到 服务 器 的 ACK 〈 图 2-5) 。 至 此 ， 连 接 完 全 
终止 ， 客 户 套 接 字 进入 TIME_WAIT 状 态 。 


(7) 进程 终止 处 理 的 另 一 部 分 内 容 是 : 在 服务 句子 进程 终止 时 ， 给 
父 进 程 及 送 一 个 srI6cHLD 信 号 。 这 一 点 在 本 例 中 发 生 了 ， 但 是 我 们 没有 
在 代码 中 捕获 该 信号 ， 而 该 信号 的 默认 行为 是 被 忽略 。 既 然 父 进 程 未 加 
处 理 ， 子 进程 于 是 进入 僵 死 状态 。 我 们 可 以 使 用 ps 命令 验证 这 一 点 。 
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linux % ps -t pts/6 -0 pid,ppid,tty,stat,args, wchan 
PID PPID TT STAT | COMMAND WCHAN 


22038 22036 pts/6 S -bash read chan 
17870 22038 pts/6 S ./tcpserv01 wait for connect 
19315 17870 pts/6 Z [tcpservO1 «defu do exit 





子 进程 的 状态 现在 是 z《〈 表 示 僵 死 ) 。 


我 们 必须 清理 僵 死 进程 ， 这 就 涉及 Unix 信 号 的 处 理 。 我 们 将 在 下 一 
节 概 述 信号 处 理 ， 在 下 一 节 继 续 我 们 的 例子 。 


5.8  POSIX 信 号 处 理 

信号 (signal) 就 是 告知 某 个 进程 发 生 了 某 个 事件 的 通知 ， 有 了 时 也 
称 为 软件 中 断 〈software interrupt) 。 信 号 通常 是 异步 发 生 的 ， 也 就 是 
说 进程 预先 不 知道 信号 的 准确 发 生 时 刻 。 


ay AYU: 





。 由 一 个 进程 发 给 另 一 个 进程 〈 或 目 身 ) 5 
。 HAR RATER. 


Eia Fete Bl A SIGcHp fa s whe EH VALER CE FE foL “PE RE ES 
发 给 它 的 父 进程 的 一 个 信号。 


每 个 信号 都 有 一 个 与 之 关联 的 处 置 〈disposition) ， 也 称 为 行为 
(action? 。 我 们 通过 调用 sigaction 函 数 《〈 稍 后 讨论 ) 来 设 定 一 个 信和 号 
的 处 置 ， 并 有 三 种 选择 。 

(1) 我 们 可 以 提供 一 个 函数 ， 只 要 有 特定 信号 发 生 它 就 被 调用 。 这 
样 的 函数 称 为 信号 处 理 函 数 Csignal handler) ， 这 种 行为 称 为 捕获 
(catching) 信号 。 包 有 两 个 信号 不 能 被 捕获 ， 它 们 是 srTGKILL 和 
SIGSTOP。 信 和 号 处 理 函 数 由 信号 值 这 个 单一 的 整数 参数 来 调用 ， 且 没有 
返回 值 ， 其 函数 原型 因此 如 下 : 


void handler(int signo); 




















对 于 大 多 数 信 号 来 说 ， 调 用 sigaction 函 数 并 指定 信号 发 生 时 所 调 
用 的 函数 就 是 捕获 信号 所 需 做 的 全 部 工作 。 不 过 我 们 稍 后 将 看 
到 ，SsIGI0、SIGPOLL 和 SIGURG 这 些 个 别 信 号 还 要 求 捕获 它们 的 进程 做 些 
额外 工作 。 


(2) ”我 们 可 以 把 某 个 信号 的 处 置 设 定 为 SI6_I6N 来 忽略 Cignore) 
它 。SIGKILL 和 sIGSTOP 这 两 个 信号 不 能 被 忽略 。 
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(3) 我 们 可 以 把 某 个 信号 的 处 置 设 定 为 STG_DFL 来 启用 它 的 默认 
(default) 处 置 。 默 认 处 置 通 稼 是 在 收 到 信和 号 后 终止 进程 ， 其 中 某 些 信 
号 还 在 当前 工作 目录 产生 一 个 进程 的 核心 映像 〈core image， 也 称 为 内 
存 影像 ) 。 另 有 个 别 fei er EV BRA Kb ELS RS SsIGCHLD 和 sIGURG 〈 带 外 
Fasten 见 第 24 章 ) 就 是 本 书 中 出 现 的 默认 处 置 为 忽略 的 两 个 








signal Lf PR Al 


EZE SAA POSIX ARE UU H]sigactionbÉ žit. PEA A 
复杂 ， 因 为 该 函数 的 参数 之 一 是 我 们 必须 分 配 并 填写 的 结构 。 简 单 些 的 
方法 就 是 调用 signal 函 数 ， 其 第 一 个 参数 是 信和 号 名 ， 第 二 个 参数 或 为 指 
向 函数 的 指针 ， 或 为 常 值 STIG_ITGN 或 SIG_DFL。 然 而 signal 是 早 于 POSIX 
出 现 的 历史 悠久 的 函数 。 调 用 它 时 ， 不 同 的 实现 提供 不 同 的 信号 语义 以 
达成 后 回 兼 容 ， 而 POSIX 则 明确 规定 了 调用 sigaction 时 的 信号 语义 。 
我 们 的 解决 办 法 是 定义 自己 的 signal 函 数 ， P cups 
sigaction 函 数 。 这 就 以 所 期 望 的 POSIX 语 义 提 供 了 一 个 简单 的 接口 。 
1， muU TASES 
CLM PR BCE, mS ER PEE TOS rRNA. SEE 
数 如 图 5-6 所 示 。 (PUNTA HC EP ZI signal, HAA 耸 它 调 
用 本 函数 还 是 厂家 提供 的 signal 函 数 ， 效 果 都 是 一 样 的 。 











lib/signai.c 





1 #incluce "unp. h” 


2 Sig*un? * 
3 signal (int siqno, Siatune *ftunc) 


4 1 

5 struc- sigection act, oact; 

€ act.ea handler = func; 

7 sigemotyset (Sact.sa_maak) ; 

5 act.sa flags = 0; 

9 if (signo == SIGALPM) [ 

10 fifdef SA_INTERRUPT 

12 act.sa_flags |= SA_INTERRUPT;  /* SunOS 4.x */ 
12 @endif 

13 } else [ 

14 #ifdef SA_RESTART 

15 act.sa_flags |= SA RESTART; /* SVR4, 4.4ESD */ 
16 #endif 

17 } 

18 iE (sigaction{sions, &acz, &oact! « 0 

19 rerturn(STG ERR); 


20 rsturad!oact.£a handler! ; 


dib/stanai.c 


图 5-6 调用 POSIX sigaction 函 数 的 signal 函 数 
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用 typedef 简 化 函数 原型 
2-3 ”函数 signal 的 正常 函数 原型 因 层 次 太 多 而 变 得 很 复杂 : 


void (*signal(int signo, void (*func)(int)))(int); 











为 了 简化 起 见 ， 我 们 在 头 文件 unp.h 中 定义 了 如 下 的 Sigfunc 类 型 : 


typedef void Sigfunc(int); 


它 说 明 信 和 号 处 理 函 数 是 仅 有 一 个 整数 参数 且 不 返回 值 的 函 
数 。 signal 的 函数 原型 于 是 变 为 : 


Sigfunc *signal(int signo, Sigfunc *func); 











该 函数 的 第 二 个 参数 和 返回 值 都 是 指 癌 信号 处 理 函 数 的 指针 。 
设置 处 理 函 数 

6 ”sigaction 结 构 的 sa_handler 成 员 被 置 为 func 参 数 。 
设置 处 理 函 数 的 信号 掩 码 

7 POSIX 人 允许 我 们 指定 这 样 一 组 信号 ， 它 们 在 信号 处 理 函 数 被 调 
用 时 阻塞 。 乍 任何 阻塞 的 信号 都 不 能 递交 (delivering) 给 进程 。 我 们 把 
sa_mask 成 员 设 置 为 空 集 ， 意 味 着 在 该 信号 处 理 函 数 运行 期 间 ， 不 阻塞 


人 
FH E AY) 








设置 SA_RESTART 标 志 


8-17 ”SA_RESTART 标 志 是 可 选 的 。 如 果 设 置 ， 由 相应 信号 中 断 的 系 
统 调用 将 由 内 核 自 动 重启 。 我们 将 在 下 一 节 继 续 上 一 节 的 例子 时 详细 
讨论 被 中 断 的 系统 调用 。) 如 果 被 捕获 的 信号 不 是 SIGALRM 且 SA_RESTART 


有 定义 ， 我 们 就 设置 该 标志 。 (对 sIGALRM 进 行 特殊 处 理 的 原因 在 于 : 
产生 该 信号 的 目的 正如 14.2 节 将 讨论 的 那样 ， 通 常 是 为 /O 操 作 设 置 超 
时 ， 这 种 情况 下 我 们 希望 受阻 塞 的 系统 调用 被 该 信号 中 断 掉 。) 一 些 较 
早期 的 系统 〈 如 SunOS 4.x) 默认 设置 成 自动 重 局 被 中 断 的 系统 调用 ， 
并 定义 了 与 SA_RESTART 互 补 的 SA_INTERRUPT 标 志 。 如 果 定 义 了 该 标志 ， 
我 们 就 在 被 捕获 的 信号 是 SIGALRM 时 设置 它 。 

Vil FA sigaction pk ZA 


18-20 dEfllWjHisigactionrR Zi, FRSA a SHIA TT AE 
Aisignal eh BAY EHE - 


Z&-P38 gà ii H] 5-6) signal K. 
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POSIX 信 号 语义 
我 们 把 符合 POSIX 的 系统 上 的 信号 处 理 总 结 为 以 下 几 点 。 





一 有 旦 安装 了 信号 处 理 函 数 ， 它 便 一 直 安 装着 〈 较 早期 的 系统 是 每 执 
行 一 次 束 将 其 拆除 )。 

e 在 一 个 信号 处 理 函 数 运 行 期 间 ， 正 被 递交 的 信号 是 阻塞 的 。 而 且 ， 
安装 处 理 函 数 时 在 传递 给 sigaction 函 数 的 sa_mask 信 号 集中 指定 的 
任何 额外 信号 也 被 阻塞 。 在 图 5-6 中 ， 我 们 将 sa_mask 置 为 空 集 ， 意 
味 着 除了 被 捕获 的 信号 外 ， 没 有 额外 信号 被 阻塞 。 

如 果 一 个 信号 在 被 阻塞 期 间 产 生 了 一 次 或 多 次 ， 那 么 该 信号 被 解 阻 
塞 之 后 通 稼 只 递交 一 次 ， 也 就 是 说 Unix 信 号 默认 是 不 排队 的 。 我 们 
将 在 下 一 节 查 看 这 样 的 一 个 例子 。POSIX 实 时 标准 1003.1b 定 义 了 一 
些 排 队 的 可 靠 信 号 ， 不 过 本 书 中 我 们 不 使 用 。 

利用 sigprocmask 函 数 选 择 性 地 阻塞 或 解 阻 塞 一 组 信号 是 可 能 的 。 
这 使 得 我 们 可 以 做 到 在 一 段 临 界 区 代码 执行 期 间 ， 防 止 捕获 某 些 信 
号 ， 以 此 保护 这 段 代 码 。 














5.9 处理 STGcHLD 信 号 


WEEE (zombie) 状态 的 目的 是 维护 子 进程 的 信息 ， 以 便 父 进程 
在 以 后 某 个 时 候 获 取 。 这 些 信息 包括 子 进程 的 进程 ID、 终 止 状态 以 及 资 
源 利用 信息 〈CPU 时 间 、 内 存 使 用 量 等 等 ) 。 如 果 一 个 进程 终止 ， 而 该 
进程 有 子 进 程 处 于 僵 死 状态 ， 那 么 它 的 所 有 僵 死 子 进程 的 父 进程 ID 将 被 
重 置 为 1 (init 进 程 ) 。 继 承 这 些 子 进程 的 init 进 程 将 清理 它们 《〈 也 天 
是 说 init 进 程 将 wait 它 们 ， 从 而 去 除 它 们 的 僵 死 状态 ) 。 有 些 Unix 系 统 
在 ps 命令 输出 的 COMMAND 栏 以 <defunct> 指 明 伪 死 进程 。 


处 理 僵 死 进程 


我 们 显然 不 愿意 留存 僵 死 进程 。 它 们 占用 内 核 中 的 空间 ， 最 终 可 能 
导致 我 们 耗 尽 进程 资源 。 无 论 何 时 我 们 fork 子 进程 都 得 wait 它 们 ， 以 防 
它们 变 成 僵 死 进程 。 为 此 我 们 建立 一 个 俘获 SITGcHLD 信 号 的 信号 处 理 函 
数 ， 在 函数 体 中 我 们 调用 wait。 “我们 将 在 5.10 节 介绍 wait 和 waitpid 函 
数 。) 通过 在 图 5-2 所 示 代 码 的 listen 调 用 之 后 增加 如 下 函数 调用 : 


Signal(SIGCHLD, sig chld); 








我 们 就 建立 了 该 信号 处 理 函 数 。 (这 必须 在 fork 第 一 个 子 进程 之 前 
完成 ， 且 只 做 一 次 。) 我 们 接着 定义 名 为 sig_ch1d 的 这 个 信号 人 处理 函 
数 ， 如 图 5-7 所 示 。 


tepcliserviésigchldwail.c 





1 &ircluce "ung. ti" 


2 void 
3 giz chid(int signo 
4 1 
5 pidt pid; 
& int stat; 

pid = waití&stat), 
é priatfi('chili $d terminaced\n", pid); 
EJ return; 


tepeliserwsigeh!dwaii.c 




















图 5-7 “调用 wait 的 STGcHLD 信 和 号 处 理 函 数 〈 在 图 5-11 中 会 有 所 改进 ) 








警告 : Eug Mb SH BS CF URL FH VE printfi RE MEIO ER ZR Ie AP 
合适 的 ， 其 原因 将 在 11.18 节 讨论 。 我 们 在 这 里 调用 printf 只 是 作为 查看 
子 进程 何 时 终止 的 诊断 手段 。 


在 System V 和 Unix 98 标 准 下 ， 如 果 一 个 进程 把 srcGcHLp 的 处 置 设 定 
为 SIG_IGN， 它 的 子 进 程 就 不 会 变 为 僵 死 进程 。 不 幸 的 是 ， 这 种 做 法 仅 
仅 适 用 于 System V 和 Unix 98， 而 POSIX 明 确 表示 没有 规定 这 样 做 。 处 理 
什 死 进程 的 可 移植 方法 就 是 捕获 sIG6cHLD， 并 调用 wait 或 waitpid。 


在 Solaris 9 下 如 此 编译 本 程序 ， 以 图 5-2 中 代码 为 基础 ， 加 上 对 
signal 的 调用 以 及 我 们 的 sig_ch1ld 信 息 处 理 函 数 ， 而 且 所 用 的 signal 函 
数 来 和 目 系统 目 带 的 函数 库 〈 而 不 是 图 5-6 中 的 版 本 ) 。 我 们 将 有 如 下 结 
R: 





















































solaris % tcpserv02 & 在 后 台 启 动 服 务 器 

[2] 16939 

solaris % tcpcli01 127.0.0.1 再 在 前 台 启 动 客户 

hi there 我 们 键入 这 一 行 

hi there 这 一 行 被 回 射 

^D 我 们 键入 EOF 字 符 

child 16942 terminated 这 是 信号 处 理 函 数 中 printf 的 输出 
accept error: Interrupted system call 然而 main 函 数 中 止 执行 
具体 的 各 个 步 又 如 下 : 


(1) ”我 们 键入 EOF 字 符 来 终止 客户 。 客 户 TCP 发 送 一 个 FIN 给 服务 
服务 器 啊 应 以 一 个 ACK。 


(2) 收 到 客户 的 FIN 导 致 服务 器 TCP 递 送 一 个 EOF 给 子 进程 阻塞 中 的 
readline, 从 而 子 进 程 终止 。 


(3) “ 当 SIGcHLD 信 号 递交 时 ， 父 进程 阻塞 于 accept 调 用 。sig_ch1d 函 
WR fas Meee eo) 执行 ， 其 wait 调 用 取 到 子 进程 的 PID 和 终止 状态 ， 
随后 是 printf 调 用 ， 最 后 返回 。 

(4) “既然 该 信号 是 在 父 进 程 阻塞 于 慢 系 统 调 用 (accept) 时 由 父 进 
程 捕获 的 ， 内 核 就 会 使 accept 返 回 一 个 EINTR 错 误 〈 被 中 断 的 系统 调 
FA) 。 而 父 进程 不 处 理 该 错误 (图 5-2) ， 于 是 中 止 。 
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这 个 例子 是 为 了 说 明 ， 在 编写 捕获 信号 的 网 络 程序 时 ， 我 们 必须 认 
清 被 中 断 的 系统 调用 且 处 理 它 们 。 在 这 个 运行 在 Solaris 9 环境 下 特定 例 
子 中 ， 标 准 C 函 数 库 中 提供 的 signal 函 数 不 会 使 内 核 自 动 重 局 被 中 断 的 
系统 调用 。 也 惑 是 说 ， 我 们 在 图 5-6 中 设置 的 SA_RESTART 标 志 在 系统 函数 
库 的 signal 函 数 中 并 没有 设置 。 另 有 些 系统 目 动 重 启 被 中 断 的 系统 调 
用 。 如 果 我 们 在 4.4BSD 环 境 下 照样 使 用 系统 函数 库 版 本 的 signal 函 数 运 
行 上 述 例子 ， 那 么 内 核 将 重启 被 中 断 的 系统 调用 ， 于 是 accept 不 会 返回 
错误 。 我 们 定义 自己 的 signal 函 数 ( 图 5-6) 并 在 贯穿 全 书 使 用 的 理由 
之 一 就 是 应 对 不 同 操 作 系 统 之 间 的 这 个 潜在 问题 。 


作为 本 书 使 用 的 编程 约定 之 一 ， 我 们 总 是 在 信号 处 理 函 数 中 显 式 给 
出 return 语 句 〈 图 5-7) ， 即 使 对 于 返回 值 类 型 为 void 的 信号 处 理 函 数 而 
言 ， 从 函数 结尾 处 掉 出 和 执行 return 语 句 效果 是 一 样 的 ， 我 们 也 还 是 为 
其 使 用 return 语 句 。 这 么 一 来 ， 当 某 个 系统 调用 被 我 们 编写 的 某 个 信和 号 
处 理 函 数 中 断 时 ， 我 们 就 可 以 得 知 该 系统 调用 具体 是 被 哪个 信号 处 理 函 
数 的 哪个 return 语 句 中 断 的 。 


处 理 被 中 断 的 系统 调用 


我 们 用 术语 慢 系统 调用 (slow system call) 描述 过 accept 函 数 ， 该 
术语 也 适用 于 那些 可 能 永远 阻塞 的 系统 调用 。 了 永远 阻塞 的 系统 调用 是 指 
调用 有 可 能 永远 无 法 返回 ， 多 数 网 络 文 持 函数 都 属于 这 一 类 。 举 例 来 
说 ， 如 果 没 有 客户 连接 到 服务 器 上 ， 那 么 服务 器 的 accept 调 用 就 没有 返 
回 的 保证 。 类 似 地 ， 在 图 5-3 中 ， 如 果 客 户 从 未 发 送 过 一 行 要 求 服务 器 
回 射 的 文本 ， 那 么 服务 器 的 read 调 用 将 永 不 返回 。 其 他 慢 系 统 调用 的 例 
子 是 对 管道 和 终端 设备 的 读 和 写 。 一 个 值得 注意 的 例外 是 磁盘 IO， 它 
们 一 般 都 会 返回 到 调用 者 〈 假 设 没 有 灾难 性 的 硬件 故障 ) 。 


适用 于 慢 系统 调用 的 基本 规则 是 : 当 阻 塞 于 某 个 慢 系 统 调用 的 一 个 
进程 捕获 某 个 信号 且 相 应 信号 处 理 函 数 返 回 时 ， 该 系统 调用 可 能 返回 一 
个 EINTR 错 误 。 有 些 内 核 自 动 重 启 某 些 被 中 断 的 系统 调用 。 不 过 为 了 便 
于 移植 ， 当 我 们 编写 捕获 信号 的 程序 时 (多 数 并 发 服务 器 捕获 
SIGCHLD) ， 我 们 必须 对 慢 系 统 调用 返回 EINTR 有 所 准备 。 移 植 性 问题 是 
由 早期 使 用 的 修饰 词 “可 能 “有 些 * 和 对 POSIX 的 SA_RESTART 标 志 的 支 
持 是 可 选 的 这 一 事实 造成 的 。 即 使 某 个 实现 文 持 SA_RESTART 标 志 ， 也 并 
非 所 有 被 中 断 系 统 调用 都 可 以 自动 重启 。 举 例 来 襄 ， 大 多 数 源 目 
Berkeley 的 实现 从 不 目 动 重启 select， 其 中 有 些 实现 从 不 重启 accept 和 和 




















recvfrom. 
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为 了 处 理 被 中 断 的 accept， 我 们 把 图 5-2 中 对 accept 的 调用 从 for 循 
环 开 始 改 起 ， 如 下 所 示 : 


for (;;){ 
clilen = sizeof(cliaddr); 
if ( (connfd = accept(listenfd, (SA *) &cliaddr, &clilen)) < 0) ( 
if (errno == EINTR) 
continue; /* back to for() */ 
else 
err sys("accept error"); 


JER, BNA accept ZU Er Tf] A Ze c BJ. P Accept, 
因为 我 们 必须 自己 处 理 该 函数 的 失败 情况 。 


这 段 代 码 所 做 的 事情 就 是 上 自己 重启 被 中 断 的 系统 调用 。 对 于 accept 
以 及 诸如 read、write、select 和 open 之 类 函数 来 启 ， 这 是 合适 的 。 不 过 
有 一 个 函数 我 们 不 能 重启 : connect. Wie AUK IBEINTR, FRAT 
能 再 次 调用 它 ， 否 则 将 立即 返回 一 个 错误 。 当 connect 被 一 个 捕获 的 信 
号 中 断 而 且 不 自动 重启 〈TCPv2 第 466 页 ) 时 ， 我 们 必须 调用 select 来 
等 竺 连接 完成 ， 如 16.3 市 所 述 。 








5.10 wait #lwaitpid rk ZA 
在 图 5-7 中 ， 我 们 调用 了 函数 wait 来 处 理 已 终止 的 子 进程 。 


#include <sys/wait.h> 

pid t wait(int *statloc); 

pid t waitpid(pid t pid, int *statloc, int options); 

均 返 回 : 若 成 功 则 为 进程 ID， 若 出 错 则 为 6 或 -1 

















函数 wait 和 waitpid 均 返回 两 个 值 : 已 终止 子 进程 的 进程 ID 号 ， 以 
及 通过 statloc 指 针 返 回 的 子 进程 终止 状态 (一 个 整数 ) 。 我 们 可 以 调用 
三 个 宏 来 检查 终止 状态 ， 并 辨别 子 进程 是 正常 终止 、 由 某 个 信号 杀 死 还 
是 仅仅 由 作业 控制 停止 而 已 。 男 有 些 宏 用 于 接着 获取 子 进程 的 退出 状 
态 、 杀 和 死 子 进程 的 信号 值 或 停止 子 进程 的 作业 控制 信号 值 。 在 图 15-10 
中 ， 我 们 将 为 此 目的 使 用 宏 wIFEXITED 和 WEXITSTATUS。 


如 果 调 用 wait 的 进程 没有 已 终止 的 子 进程 ， 不 过 有 一 个 或 多 个 子 进 
程 仍 在 执行 ， 那 么 wait 将 阻 竖 到 现 有 子 进程 第 一 个 终止 为 止 。 


waitpid 函 数 殊 等 待 哪个 进程 以 及 古人 骆 阻 塞 给 了 我 们 更 多 的 控制 。 
首先 ， Di 参数 多 许 我 们 指 定 想 等 待 的 进程 ID， 值 -1 表示 等 待 第 一 个 终止 
的 子 进程 。( 男 有 一 些 处 理 进 程 组 ID 的 可 选 信 不 过 本 书 中 用 不 上 。) 
其 次 ，options 参 数 允 许 我 们 指定 附加 选项 。 最 第 用 的 选项 是 wNOHANG， 
它 告 知 内 核 在 没有 已 终止 子 进程 时 不 要 阻 友 。 
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我 们 现在 图 示 出 函数 wait 和 waitpid 在 用 来 清理 已 终止 子 进程 时 的 
区 别 。 为 此 ， 我 们 把 TCP 客 户 程序 修改 为 如 图 5-9 所 示 。 客 户 建立 5 个 与 
服务 器 的 连接 ， 随 后 在 调用 str_cli 函 数 时 仅 用 第 一 个 连接 
(sockfd[0]) 。 建 立 多 个 连接 的 目的 是 从 并 发 服务 器 上 派生 多 个 子 进 
RE » 如 图 5-8 所 示 。 







































服务 器 
父 进程 





| 服务 器 服务 器 
了 进程 3 了 进程 5 


图 5-8 与 同一 个 并 发 服务 器 建立 了 5 个 连接 的 客户 


tcpclisenvtcpclid.c 
1 Hinclude "unp.a"* 
23 ins 
3 main(int araç, char **arqv) 
41 
5 int i, sockfd[5] ; 
6 struct socxacdr in servaddr; 
7 it {ärge i= 2) 
8 err quit ("useage: tczcli <LPaddresee>") ; 
3 for (i = 0; i < 5; i++} { 
16 aockfd[i] = Sncker ‘DF TNET, SOCK_STRFAM, 01; 
11 zzoro,ascrvadd-z, siezcof (scrvadzr)]; 
12 servaddr.sin_family = AF INET; 
13 servaddr.sin port ~ hzoas(SERV PORT'; 
14 Inst pLou(AF INET, argv[1], &servacdr.sin addr); 
is Connecticocktfd[i], (SN *) &servaddr, ciseot icervaddr) ); 
1€ ) 
17 sbrclifetdin, wockfd[0]); /* do it all 4/ 
1§ exit (0); 
19 ] 


tepclisevvitepcliüd.c 
图 5-9 与 服务 器 建立 了 5 个 连接 的 TCP 客 户 程 序 
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当 客 户 终 止 时 ， 所 有 打开 的 描述 符 由 内 核 自动 关闭 (我 们 不 调 
用 close， 仅 调用 exit) ， 且 所 有 5 个 连接 基本 在 同一 时 刻 终止 。 这 就 引 
发 了 5 个 FIN， 每 个 连接 一 个 ， 它 们 反 过 来 使 服务 器 的 5 个 子 进程 基本 在 
同一 时 刻 终止 。 这 又 导致 差 不 多 在 同一 时 刻 有 5 个 sSIGcHLD 信 号 递交 给 父 
进程 ， 如 图 5-10 所 示 。 


















TERI 








t 

















图 5-10 ”客户 终止 ， 关 闭 5 个 连接 ， 终 止 5 个 子 进程 


正 征 这 种 同一 信号 多 个 实例 的 递交 造成 了 我 们 即将 碍 看 的 问题 。 





我 们 首先 在 后 台 运 行 服务 器 ， 接 着 运行 新 的 客户 。 我 们 的 服务 器 程 
序 由 图 5-2 修 改 而 来 ， 它 调用 signal 函 数 ， 把 图 5-7 中 的 函数 建立 
为 SIGCHLD 的 信和 号 处 理 函 数 。 


linux % tcpserv03 & 


[1] 20419 


linux % tcpcli04 127.0.0.1 


hello 


child 20426 terminated 


我 们 键入 这 一 行 

这 一 行 被 回 射 回来 

我 们 再 键入 EOF 字 符 
这 是 服务 器 的 输出 


























我 们 注意 到 的 第 一 件 事 是 只 有 一 个 printf 输 出 ， 而 当时 我 们 预期 所 
有 5 个 子 进程 都 终止 了 。 如 果 运 行 ps， 我 们 将 发 现 其 他 4 个 子 进 程 仍然 作 


为 伪 死 进程 存在 着 。 
PTD TTY 
20419 pts/6 
20421 pts/6 
20422 pts/6 
20423 pts/6 


TIME COM 

00:00:00 tcpserv03 

00:00:00 tcpserv03 <defunct> 
00:00:00 tcpservO3 <defunct> 
00:00:00 tcpserv03 <defunct> 
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建立 一 个 信号 处 理 函 数 并 在 其 中 调用 wait 并 不 足以 防止 出 现 僵 死 进 
程 。 本 问题 在 于 : 所 有 5 个 信号 都 在 信号 处 理 函 数 执行 之 前 产生 ， 而 信 
号 处 理 函 数 只 执行 一 次 ， 因 为 Unix 信 号 一 般 是 不 排队 的 。 更 严重 的 是 ， 
本 问题 是 不 确定 的 。 在 我 们 刚刚 运行 的 例子 中 ， 客 户 与 服务 器 在 同一 个 


主机 上 ， 信 号 处 理 函 数 执行 1 次 ， 留 下 4 个 僵 死 进程 。 但 是 如 果 我 们 在 不 
同 的 主机 上 运行 客户 和 服务 器 ， 那 么 信号 处 理 函 数 一 般 执行 2 次 : 一 次 
征 第 一 个 产生 的 信号 引起 的 ， 由 于 另外 4 个 信号 在 信号 处 理 函 数 第 一 次 
执行 时 发 生 ， 因 此 该 处 理 函 数 仅仅 再 被 调用 一 次 ， 从 而 留 下 3 个 僵 死 进 
程 。 不 过 有 的 时 候 ， 依 赖 于 FIN 到 达 服 务 器 主机 的 时 机 ， 信 和 号 处 理 函 数 
可 能 会 执行 3 次 甚至 4 次 。 


正确 的 解决 办 法 是 调用 waitpid 而 不 是 wait， 图 5-11 给 出 了 正确 处 
理 sTGCHLD 的 sig_chl1d 函 数 。 这 个 版 本 管用 的 原因 在 于 : 我 们 在 一 个 循环 
内 调用 waitpid， 以 获取 所 有 已 终止 子 进程 的 状态 。 我 们 必须 指定 
WwNOHANG 选 项 ， 它 告知 waitpid 在 有 尚未 终止 的 子 进 程 在 运行 时 不 要 阻 
塞 。 我 们 在 图 5-7 中 不 能 在 循环 内 调用 wait， 因 为 没有 办 法 防止 wait 在 正 
运行 的 子 进程 肖 有 未 终止 时 阻塞 。 














tcpcliserv/stgehidwowtpid.c 





1 £ircluce "urip.l 
2 void 
ois chld(int signo 


pid t pic; 
€ int Etat; 
waile | (pid = waitpid( 1, éstat, WNOHANG!) > C! 
a printf (*2hild gd terminated\n", pid); 
S raturn; 
10 : 


Iopcliserv/sigekádwonid.c 



































图 5-11 调用 waitpid 函 数 的 sig_ch1d 函 数 最 终 〈 正 确 ) 版 本 
图 5-12 给 出 了 我 们 的 服务 器 程序 的 最 终 版 本 。 它 正确 处理 accept 返 


回 的 EINTR， 并 建立 一 个 给 所 有 已 终止 子 进程 调用 waitpid 的 信号 处 理 函 
数 ( 图 5-11) 。 





topcliservtopser s.c 








1 Ainclude "up. iL" 
2 int 
3 main(int argc, char **arqv) 


4 { 

5 int. listenfd, connf3: 

6 pid childpid; 

7 Sockler t -.ileon; 

8 struct sockaddr in cl-sddr, servaddr; 
a vaid gig chld(inr ); 


19 liscenfd - S2cXe-(AF INET, SOCK STRSAM, Oi; 

11 brero(Sservaddr, sizeortiservacdr)) ; 

12 servedcr.sin fanily = AF_INR™; 

13 servedcr.sin addr.s addr = htonl;INADDR ANY) ; 

14 servadcr.sin port = htons(SERV FORTI; 

15 Bindilistenfd, [SA +] &servaddar, sizeof (servadar)); 

16 Lis-en(lisLenfd, LISTENQ) ; 

17 Signzl(SIGCHLD, sig chld!; /nw must call wairpidt) */ 

18 fex (£z RA 

19 zlilen = sizeof (cl:addr); 

20 iff [ond a accept ix enfd, (SA ^) &cliaddr, &cliles!) e 4) i 
21 if [errno == EINTE] 

22 continue; /* back ts Eor{) */ 

23 alse 

24 err sysi'accept errcr"); 

25 } 

26 if | [childpid - Fork() -- 0} [ /* child process */ 
25 T cseilisten^d! ; /* close "isteni g socket */ 
28 str echo(counfd): /* process the request */ 

29 exit (0); 

30 } 

31 Close [ean fd? ; /* parent close coawwetej soket 4/ 
32 ) 

33 ] 


topeliserwtopserv04.c 

















图 5-12 ”处 理 accept 返 回 EITNTR 错 误 的 TCP 服 务 器 程序 最 终 〈 正 确 ) 版 本 
本 市 的 目的 是 示范 我 们 在 网 络 编程 时 可 能 会 过 到 的 三 种 情况 : 
(1) 当 fork 子 进程 时 ， 必 须 捕获 SIGcHLD 信 和 号 ; 

(2) 当 捕 获 信号 时 ， 必 须 处 理 被 中 断 的 系统 调用 


(3) SIGcHLD 的 信号 处 理 函 数 必须 正确 编写 ， 应 使 用 waitpid 函 数 以 免 
留 下 僵 死 进程 。 


我 们 的 TCP 服 务 器 程序 最 终 版 本 〈 图 5-12) 加 上 图 5-11 的 SIGcHLD 信 
号 处 理 函 数 能 够 处 理 上 述 三 种 情况 。 








5.11 accept 返回 前 连接 中 目 


类 似 于 前 一 节 中 介绍 的 被 中 断 系 统 调用 的 例子 ， 巡 有 一 种 情形 也 能 
够 导致 accept 返 回 一 个 非 致命 的 错误 ， 在 这 种 情况 下 ， 只 需要 再 次 调 
用 accept。 图 5-13 中 所 示 的 分 组 序列 在 较 忙 的 服务 器 (典型 的 是 较 忙 的 
Web 服 务 器 〉 上 已 出 现 过 。 
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客户 服务 器 
| socket bind, listen 
socket LISTEN 《变动 打开 》 
connect (HÆ) — — — SYN 


Tem SYN RCVD 


mmt 


cournec Lj [A] 4—— 


ESTABLISHED 


调用 accept 





图 5-13 ” ESTABLISHED 状 态 的 连接 在 调用 accept 之 前 收 到 RST 


这 里 ， 三 路 握手 完成 从 而 连接 建立 之 后 ， 客 户 TCP 却 发 送 了 一 个 
RST (CRM) 。 在 服务 器 端 看 来 ， 束 在 该 连接 已 由 TCP 排 队 ， 等 着 服务 
器 进程 调用 accept 的 时 候 RST 到 达 。 稍 后 ， 服 务 器 进程 调用 accept。 


模拟 这 种 情形 的 一 个 简单 方法 就 是 : 启动 服务 器 ， 让 它 调 
用 socket、bind 和 1isten， 然 后 在 调用 accept 之 前 睡眠 一 小 段 时 间 。 在 
服务 器 进程 睡眠 时 ， 启 动 客户 ， 让 它 调用 socket 和 connect。 一 旦 
connect 返 回 ， 束 设置 So_LINGER 套 接 字 选项 以 产生 这 个 RST 《我 们 将 在 
7.5 节 讨论 该 套 接 字 选 项 ， 并 在 图 16-21 中 给 出 一 个 例子 ) ， 然 后 终止 。 


但 是 ， 如 何 处 理 这 种 中 止 的 连接 依赖 于 不 同 的 实现 。 源 自 Berkeley 
的 实现 完全 在 内 核 中 处 理 中 止 的 连接 ， 服 务 器 进程 根本 看 不 到 。 然 而 大 
多 数 SVR4 实 现 返 回 一 个 错误 给 服务 器 进程 ， 作 为 accept 的 返回 结果 ， 








不 过 错误 本 身 取决 于 实现 。 这 些 SVR4 实 现 返 回 一 个 EPROTO (“protocol 
error”， 协 议 错误 ) errno 值 ， 而 POSIX 指 出 返回 的 errno 值 必须 

是 ECONNABORTED (“software caused connection abort*， 软 件 引 起 的 连接 中 
止 》。POSIX 作 出 修改 的 理由 在 于 : 流 子 系统 (streams subsystem) 中 
发 生 某 些 致命 的 协议 相关 事件 时 ， 也 会 返回 EPRoTo。 要 是 对 于 由 客户 引 
起 的 一 个 已 建立 连接 的 非 致 合 中 止 也 返回 同样 的 错误 ， 那 么 服务 器 就 不 
知道 该 再 次 调用 accept 还 是 不 该 了 。 换 成 EcoNNABORTED 错 误 ， 服 务 器 就 
可 以 忽略 它 ， 再 次 调用 accept 束 行 。 


源 自 Berkeley 的 内 核 从 不 把 该 错误 传递 给 进程 的 做 法 所 涉及 的 步 又 
在 TCPV2 中 得 到 阐述 。 引 发 该 错误 的 RST 在 第 964 页 得 到 处 理 ， 导 致 
tcp_close 被 调用 。 访 函数 在 第 897 页 调用 in_pcbdetach， 它 又 转 而 在 第 
719 页 调用 sofree。sofree 国 数 《〈 第 473 页 ) 发 现 符 中 止 的 连接 仍 在 监听 
套 接 字 的 已 完成 连接 队列 中 ， 于 是 从 该 队列 中 删除 该 连接 ， 并 释放 相应 
的 已 连接 套 接 字 。 当 服务 器 最 终 调用 accept 函 数 时 ， 它 根本 不 知道 兽 经 
有 一 个 已 完成 的 连接 稍 后 被 从 已 完成 连接 队列 中 删除 了 。 
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在 16.6 节 我 们 将 再 次 回 到 这 些 中 目的 连接 ， 碍 看 在 与 select 函 数 和 
正常 阻 豆 模式 下 的 监听 套 接 字 组 合 时 它们 是 如 何 成 为 问题 的 。 

















5.12 服务 器 进程 终止 


现在 局 动 我 们 的 客户 /服务 器 对 ， 然 后 杀 死 服务 器 子 进程 。 这 是 在 
模拟 服务 器 进程 衣 尝 的 情形 ， 我 们 可 从 中 查看 客户 将 发 生 什么 。 RN 
必须 小 心 区 别 即 将 讨论 的 服务 器 进程 朋 温 与 将 在 5.14 节 讨论 的 服务 器 主 
BU. 0 上 所 发 生 的 步骤 如 下 所 述 。 


(1) 我 们 在 同一 个 主机 上 局 动 服 务 器 和 客户 ， 并 在 客户 上 键入 一 行 
文本 ， 以 验证 一 切 正常 。 正 常情 况 下 该 行文 本 由 服务 占 子 进程 回 财 给 客 


Li 


(2) “找到 服务 器 子 进程 的 进程 ID， 并 执行 kil11 命 令 杀 死 它 。 作 为 进 
程 终 止 处 理 的 部 分 工作 ， 子 进程 中 所 有 打开 着 的 描述 符 都 被 关闭 。 这 就 
导致 向 客户 发 送 一 个 FIN， 而 客户 TCP 则 响应 以 一 个 ACK。 这 就 是 TCP 
连接 终止 工作 的 前 半 部 分 。 


(3) ”SsIGCHLD 信 号 被 发 送 给 服务 器 父 进 程 ， 并 得 到 正确 处 理 〈( 图 5- 
12) 


(4) 客户 上 没有 发 生 任何 特殊 之 事 。 客 户 TICP 接 收 来 自 服务 器 TCP 的 
FIN 并 啊 应 以 一 个 ACK， 然 而 问题 是 客户 进程 阻 赛 在 fgets 调 用 上 ， 等 街 
从 终端 接收 一 行文 本 。 


(5) 此 时 ， 在 另外 一 个 窗口 上 运行 netstat 命 令 ， 以 观察 套 接 字 的 状 


linux % netstat -a | grep 9877 

tcp 0 0 *:9877 VR LISTEN 

tcp 0 9 localhost:9877 localhost:43604 FIN WAIT2 
1 0 localhost:43604 localhost:9877 

CLOSE WAIT 


参照 图 2-4， 我 们 看 到 TCP 连 接 终止 序列 的 前 半 部 分 已 经 完成 。 


(6) 我 们 可 以 在 客户 上 再 键入 一 行文 本 。 以 下 是 从 第 一 步 开 始 发 生 
在 客户 之 事 : 


linux % tcpcliO1 127.0.0.1 启动 客户 

















hello 键入 第 一 行文 本 
hello 它 被 正确 回 射 

在 这 儿 杀 和 死 服务 器 子 进程 
another line 然后 键入 下 一 行文 本 


str cli: server terminated prematurely 


当 我 们 键入 “another line” 时 ，str_cl1i 调 用 writen， 客 户 TCP 接 着 把 
数据 发 送 给 服务 器 。TCP 人 允许 这 么 做 ， 因 为 客户 TCP 接 收 到 FIN 只 是 表 
示 服 务 器 进程 已 关闭 了 连接 的 服务 器 端 ， 从 而 不 再 往 其 中 发 送 任何 数据 
而 已 。FIN 的 接收 并 没有 告知 客户 TCP 服 务 器 进程 已 经 终止 (本 例子 中 
a 。 在 6.6 节 讨论 TCP 的 半 关 闭 时 我 们 将 再 次 论述 这 一 
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当 服 务 器 TCP 接 收 到 来 上 自 客 户 的 数据 时 ， 既 然 先 前 打开 那个 套 接 字 
的 进程 已 经 终止 ， 于 是 啊 应 以 一 个 RST。 通 过 使 用 tcpdump 来 观察 分 组 ， 
我 们 可 以 验证 该 RST 确 实 发 送 了 。 


(7) ”然而 客户 进程 看 不 到 这 个 RST， 因 为 它 在 调用 writen 后 立即 调 
用 readline， 并 且 由 于 第 2 步 中 接收 的 FIN， 上 所 调用 的 readline 立 即 返 回 
0《〈 表 示 EOF) 。 我 们 的 客户 此 时 并 未 预期 收 到 EOF《〈 图 5-5) ， 于 是 以 
出 错 信息 “server terminated prematurely”( 服 务 器 过 早 终止 ) 退出 。 


(8) 当 客 户 终 止 时 (通过 调用 图 5-5 中 的 err_quit) ， 它 所 有 打开 着 
的 描述 符 部 被 关闭 。 


我 们 的 上 述 讨论 还 取决 于 本 例子 的 时 序 。 客 户 调 用 readline 既 可 能 
发 生 在 服务 器 的 RST 被 客户 收 到 之 前 ， 也 可 能 发 生 在 收 到 之 后 。 如 果 
readline 发 生 在 收 到 RST 之 前 (如 本 例子 所 示 〉 ， 那 么 结果 是 客户 得 到 
一 个 未 预期 的 EOF;， 否 则 结果 是 由 readline 返 回 一 
个 ECONNRESET (“connection reset by peer”， 对 方 复 位 连接 错误 ) 。 


本 例子 的 问题 在 于 : 当 FIN 到 达 套 接 字 时 ， 客 户 正 阻塞 在 fgets 调 用 
上 。 客 户 实际 上 在 应 对 两 个 描述 符 _ 套 接 字 和 用 户 输 入 ， 它 不 能 单纯 
阻塞 在 这 两 个 源 中 某 个 特定 源 的 输入 上 “正如 目前 编写 的 str_c1i 函 数 
所 为 ) ， 而 是 应 该 阻塞 在 其 中 任何 一 个 源 的 输入 上 上。 事实 上 这 正 
是 select 和 pol1 这 两 个 函数 的 目的 之 一 ， 我 们 将 在 第 6 章 中 讨论 它们 。 

















我 们 在 6.4 节 重新 编写 str_c1li 函 数 之 后 ， 一 旦 杀 死 服务 器 子 进程 ， 客 户 
就 会 立即 被 告知 已 收 到 FIN。 


5.13  SIGPIPE/; 5 


要 是 客户 不 理会 readline 函 数 返 回 的 错误 ， 反 而 写 入 更 多 的 数据 到 
服务 器 上 ， 那 又 会 发 生 什 么 呢 ? 这 种 情况 是 可 能 发 生 的 ， 举 例 来 说 ， 客 
户 可 能 在 读 回 任何 数据 之 前 执行 两 次 针对 服务 器 的 写 操作 ， 而 RST 是 由 
其 中 第 一 次 写 操 作 引 发 的 。 


适用 于 此 的 规则 是 : 当 一 个 进程 问 某 个 已 收 到 RST 的 套 接 字 执行 写 
操作 时 ， 内 核 向 该 进程 发 送 一 个 srTGPIPE 信 和 号。 该 信号 的 默认 行为 是 终 
止 进程 ， 因 此 进程 必须 捕获 它 以 免 不 情 愿 地 被 终止 。 


不 论 该 进程 是 捕获 了 该 信号 并 从 其 信号 处 理 函 数 返回 ， 还 是 简单 地 
忽略 该 信号 ， 写 操作 都 将 返回 EPIPE 错 误 。 


一 个 在 Usenet 上 经 常 问 及 的 问题 (frequently asked question, FAQ) 
是 如 何在 第 一 次 与 操作 时 而 不 是 在 第 二 次 写 操作 时 捕获 该 信号 。 这 是 不 
可 能 的 。 遵 照 上 述 讨论 ， 第 一 次 写 操 作 引 发 RST， 第 二 次 写 引 发 SIGPIPE 
信和 号。 写 一 个 已 接收 了 PIN 的 套 接 字 不 成 问题 ， 但 是 写 一 个 已 接收 了 
RST 的 套 接 字 则 是 一 个 错误 。 
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为 了 看 清 有 了 SsIGPIPE 信 号 会 发 生 什 么 ， 我 们 把 客户 程序 修改 成 如 
图 5-14 所 示 。 


tevcliserwst" clill.c 





7 incluis "imp h" 
2 void 
i gty c -i(FILE *zp, int cccktd) 


Car serdli:e[MAX.INE], re-vli:» [MAXTWNE]; 


4 
s 
€ waile (Fgets(sendiine, NAXLINE, fp) .- NULL; [ 
y Weaten(sscatd, sendline, 1]; 

é sleep(1!; 

a Writen(sccxfd, sendlire+1, strlen(serdl:re!-1); 

10 i= (Keadline(sockfd, reocvline, MAXLLINE) == Q9) 

11 ezr quití("str cli: server terminated prema-urely"); 


12 Fouts (recvline, stdout! ; 
1 


icpecliserv/str. cli Hc 

















图 5-14  JijwritenPAiXHJstr clirpK ZA 


7-9 我 们 所 做 的 修改 就 是 调用 writen 两 次 : 第 一 次 把 文本 行 数据 
的 第 一 个 字 节 写 入 套 接 字 ， 和 暂停 一 秒 钟 后 ， 第 二 次 把 同一 文本 行 中 剩余 
字 节 写 入 套 接 字 。 有 目的 是 让 第 一 次 writen 引 发 一 个 RST， 再 让 第 二 
个 writen 产 生 SITGPIPE。 


在 我 们 的 Linux 主 机 上 运行 客户 ， 我 们 得 到 如 下 结果 : 


linux % tcpcli11 127.0.0.1 
































hi there 我 们 键入 这 行文 本 
hi there 它 被 服 可 射 回 来 

在 这 儿 杀 死 服务 器 子 进程 
bye 然后 键入 这 行文 本 
Broken pipe 本 行 由 shell 显 示 




















我 们 局 动 客户 ， 键 入 一 行文 本 ， 看 到 它 被 正确 回 射 后 ， 在 服务 器 主 
机 上 终止 服务 器 子 进程 。 我 们 接着 键入 男 一 行文 本 (“bye”) ， 结 果 是 
没有 任何 回 射 ， 而 shell 告 诉 我 们 客户 进程 因为 SIGPIPE 信 号 而 死亡 了 。 
当前 台 进 程 未 曾 执 行内 存 内 容 倾泻 (core dumping) 就 死亡 时 ， 有 些 
H JIE A o 


处 理 STGPIPE 的 建议 方法 取 诀 于 它 发 生 时 应 用 进程 想 做 什么 。 如 果 
没有 特殊 的 事情 要 做 ， 那 么 将 信号 处 理 办 法 直接 设置 为 SIG_IGN， 并 假 
设 后 续 的 输出 操作 将 捕捉 EPIPE 错 误 并 终止 。 如 果 信 号 出 现时 需 采 取 特 
殊 措施 (可 能 需 在 日 志文 件 中 登记 ) ， 那 么 就 必须 捕获 该 信号 ， 以 便 在 
信号 处 理 函 数 中 执行 所 有 期 望 的 动作 。 但 是 必须 意识 到 ， 如 果 使 用 了 多 
个 套 接 字 ， 该 信号 的 递交 无 法 告诉 我 们 是 哪个 套 接 字 出 的 错 。 如 果 我 们 
确实 需要 知道 是 哪个 write 出 了 错 ， 那 么 必须 要 么 不 理会 该 信号 ， 要 人 么 
从 信号 处 理 函 数 返 回 后 再 处 理 来 自 write 的 EPIPE。 


143 











534 RZN 


我 们 接着 查看 当 服务 器 主机 骨 溃 时 会 发 生 什 么 。 为 了 模拟 这 种 情 
形 ， 我 们 必须 在 不 同 的 主机 上 运行 客户 和 服务 器 。 我 们 先 月 动 服务 器 ， 
再 司 动 客户 ， 接 独 在 客户 上 键入 一 行文 本 以 确认 连接 工作 正 币 ， 然 后 从 
网 络 上 断 开 服务 器 主 机 ， 并 在 客户 上 键入 另 一 行文 本 。 这 样 同时 也 模拟 
时 服务 器 主机 不 可 达 的 情形 《〈 即 建立 连接 后 茶 些 中 间 
路 由 器 不 工作 ) 。 


步骤 如 下 所 述 。 


(1) 当 服 务 器 主机 骨 训 时 ， 已 有 的 网 络 连接 上 不 发 出 任何 东西 。 这 
里 我 们 假设 的 是 主机 朋 尝 ， 而 不 是 由 操作 员 执 行 命令 关机 (我 们 将 在 
5.16 节 讨论 后 者 ) o 


(2 我 们 在 客户 上 键入 一 行文 本 ， 它 由 writen《〈 图 5-5) 写 入 内 核 ， 
再 由 客户 TCP 作 为 一 个 数据 分 节 送 出 。 客 户 随 后 阻 罕 于 readline 调 用 ， 
等 竺 回 射 的 应 答 。 


(3) 如 果 我 们 用 tcpdump 观 察 网 络 就 会 发 现 ， 客 户 TCP 持 续 重 传 数据 
分 节 ， 试 图 从 服务 器 上 接收 一 个 ACK。TCPv2 的 25.11 节 给 出 了 TCP 重 传 
一 个 典型 模式 源 自 Berkeley 的 实现 重 传 该 数据 分 节 12 次 ， 共 等 待 约 9 分 
钟 才 放弃 重 传 。 当 客户 TCP 最 后 终于 放弃 时 【假设 在 这 上段 时 间 内 ， 服 务 
器 主机 没有 重新 启动 ， 或 者 如 果 是 服务 器 主机 未 崩 演 但 是 从 网 络 上 不 可 
达 ， 那 么 假设 主机 仍然 不 可 达 ) ， 给 客户 进程 返回 一 个 错误 。 既 然 客户 
阻塞 在 readline 调 用 上 ， 访 调用 将 返回 一 个 错误 。 假 设 服务 器 主机 已 骨 
沉 ， 从 而 对 客户 的 数据 分 节 根 本 没有 啊 应 ， 那 么 所 返回 的 错误 
是 ETIMEDOUT。 然 而 如 果菜 个 中 间 路 由 右 判 定 服 务 器 主机 已 不 可 达 ， 从 
而 响应 以 一 个 “destination unreachable”( 目 的 地 不 可 达 ) ICMP 消 息 ， 那 
么 所 返回 的 错误 是 EHOSTUNREACH 或 ENETUNREACH。 


尽管 我 们 的 客户 最 终 还 是 会 发 现 对 端 主机 已 朋 溃 或 不 可 达 ， 不 过 有 
时 候 我 们 需要 比 不 得 不 等 待 9 分 钟 更 快 地 检测 出 这 种 情况 。 所 用 方法 就 
是 对 readline 调 用 设置 一 个 超时 ， 我 们 将 在 14.2 节 讨论 这 一 点 。 


我 们 刚刚 讨论 的 情形 只 有 在 我 们 加 服务 器 主机 发 送 数 据 时 才能 检测 




















HECAM. 如 有 果 我 们 不 主动 回 它 发 送 数据 也 想 检 测 出 服务 器 主机 的 
朋 泪 ， 那 么 需要 采用 另外 一 个 技术 ， 也 就 是 我 们 将 在 7.5 节 讨论 的 
SO_KEEPALIVE 套 接 字 选项 。 


5.15 Jl o5 as EAL viU EUH 


在 这 种 情形 中 ， 我 们 先 在 客户 与 服务 器 之 间 建 立 连接 ， 然 后 假设 服 
务 右 主机 册 尝 并 重启 。 前 一 节 中 ， 当 我 们 发 送 数 据 时 ， 服 务 絮 主机 仍然 
处 于 月 湿 状 态 ， 本 市 中 ， 我 们 将 在 肥 送 数据 前 重新 局 动 已 经 崩 尝 的 服务 
虱 主 机 。 模 拟 这 种 情形 的 最 简单 方法 束 是 : 先 建 立 连 接 ， 再 从 网 络 上 断 
开 服 务 器 主机 ， 将 它 关 机 后 再 重新 局 动 ， 最 后 把 它 重 新 连接 到 网 络 中 。 
我 们 不 想 客 户 知道 服务 需 主 机 的 关机 《我 们 将 在 5.16 节 讨论 这 一 点 ) 。 
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正如 前 一 节 所 述 ， 如 果 在 服务 器 主机 骨 溃 时 客户 不 主动 给 服务 器 发 
送 数 据 ， 那 么 客户 将 不 会 知道 服务 器 主机 已 经 骨 尝 。〔 这 里 假设 我 们 没 
有 使 用 so_KEEPALIVE 套 接 字 选项 ) 。 所 发 生 的 步骤 如 下 所 述 。 
(1) 我 们 启动 服务 器 和 客户 ， 并 在 客户 键入 一 行文 本 以 确认 连接 已 


经 建立 。 
(2) 服务 器 主机 裔 省 并 重启 。 
a a 
# 主 机 。 














(4) ” 当 服 务 器 主机 和 衣 尝 后 重 局 时 ， 它 的 TCP 丢 失 了 骨 尝 前 的 所 有 连 
接 信息 ， 因 此 服务 器 TCP 对 于 所 收 到 的 来 自 客户 的 数据 分 市 啊 应 以 一 个 
RST. 


(5) AAP TCPUESIHZRSTET, 4 IEBH2E T readline H, BUR 
调用 返回 ECONNRESET 错 误 。 


如 果 对 客户 而 言 检测 服务 器 主机 骨 尝 与 否 很 重要 ， 即 使 客户 不 主动 


发 送 数 据 也 要 能 检测 出 来 ， 就 需要 采用 其 他 某 种 技术 (诸如 
SO KEEPALIVE E T^f 126 Jl nV, A Eee PL AS AS FIL) 








5.16 AKA X DLL 


Bil TELA DE Ve Y Hos da EDL DL EXGIZOBUSE REA BUA TIE. AST 
0 0 esc Mi i eet 
A e 


Unix 系 统 关机 时 ，init 进 程 通常 先 给 所 有 进程 发 送 sreTERM 信 号 
(该 信号 可 被 捕获 ) ， 等 待 一 段 固定 的 时 间 (往往 在 5~20 秒 〉， 然 后 
给 所 有 仍 在 运行 的 进程 发 送 STGKILL 信 和 号 〈 该 信号 不 能 被 捕获 ) 。 这 人 么 
做 留 给 所 有 运行 的 进程 一 小 段 时 间 来 清除 和 终止 。 如 果 我 们 不 捕获 
SIGTERM 信 号 并 终止 ， 我 们 的 服务 器 将 由 SIGKILL 信 和 号 终止 。 饼 当 服 务 器 
子 进程 终止 时 ， 它 的 所 有 打开 着 的 描述 符 都 被 关闭 ， 随 后 发 生 的 步 又 与 
5.12 节 中 讨论 过 的 一 样 。 正 如 那 一 节 所 述 ， 我 们 必须 在 客户 中 使 
用 select 或 po11 函 数 ， 使 得 服务 器 进程 的 终止 一 经 发 生 ， 客 户 就 能 检测 
到 。 
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5.17 工 CP 程 序 例子 小 结 


在 TCP 客 户 和 服务 器 可 以 彼此 通信 之 前 ， 每 一 端 都 得 指定 连接 的 和 套 
接 字 对 : 本 地 IP 地 址 、 本 地 端口 、 外 地 IP 地 址 、 外 地 端口 。 在 图 5-15 中 
我 们 以 粗 体 圆 点 标 出 了 这 四 个 值 。 该 图 处 于 客户 的 角度 。 外 地 IP 地 址 和 
外 地 端口 必须 在 客户 调用 connect 时 指定 ， 而 两 个 本 地 值 通 常 就 由 内 核 
作为 connect 的 一 部 分 来 选 定 。 客 户 也 可 在 调用 connect 之 前 ， 通 过 调 
用 bind 来 指定 其 中 一 个 或 全 部 两 个 本 地 值 ， 不 过 这 种 做 法 并 不 常见 。 


socket () 
connect i) 

















TCP Ae Yer NR n 











yak a 次 所 周知 端口 号 
nee 区 时 X. | 7 
P | _。 由 IP 选 择 的 客站 IP 地 址 | 。 指定 服务 器 的 六 地 起 
/ x (基于 路 由) 


N 
\ 


/ 
j N 
| AN EET | 数据 链 路 











图 5-15 ”从 客户 的 角度 总 结 TCP 客 户 / 服 务 器 








正如 4.10 节 所 述 ， 客 户 可 以 在 连接 建立 后 通过 调用 getsockname 获 取 
由 内 核 指 定 的 两 个 本 地 值 。 


图 5-16 标 出 了 同样 的 四 个 值 ， 不 过 处 于 服务 占 的 角度 。 


listen(! sccket (! 
accept (| bind () 


服务 路 













2 SMBS 
a c EP S 


je pz P fp H1 





指定 本 二 地址 
Dee MM 


AED E Yuma kt: 
C—WEHn ne ode o 





N 
N 
N 
V N 
拟 据 链 路 E arii AUR DEH 数据 链 路 


图 5-16 ”从 服务 器 的 角度 总 结 TCP 客 户 /服务 器 


本 地 端口 〈 服 务 器 的 众所周知 端口 ) 由 bind 指 定 。bind 调 用 中 服务 
器 指定 的 本 地 IP 地 址 通常 是 通 配 IP 地 址 。 如 果 服 务 器 在 一 个 多 宿主 机 上 
绑 定 通 配 卫 地 址 ， 那 么 它 可 以 在 连接 建立 后 通过 调用 getsockname 来 确定 
本 地 IP 地 址 (4.10 节 )〉 。 两 个 外 地 值 则 由 accept 调 用 返回 给 服务 器 。 正 
如 4.10 节 所 述 ， 如 果 另 外 一 个 程序 由 调用 accept 的 服务 器 通过 调用 exec 
来 执行 ， 那 么 这 个 新 程序 可 以 在 必要 时 调用 getpeername 来 确定 客户 的 卫 
地 址 和 端口 号 。 





5.18 ”数据 格式 


在 我 们 的 例子 中 ， 服 务 器 从 不 检查 来 自 客户 的 请 求 。 它 只 管 读 入 直 
到 换行 符 《〈 包 括 换行 符 ) 的 所 有 数据 ， 把 它 发 回 给 客户 ， 所 搜索 的 仅仅 
古 换行 行 。 这 只 是 一 个 例外 ， 而 不 是 通常 规则 ， 一 般 来 说 ， 我 们 必须 关 
心 在 客 尸 和 服务 器 之 间 进 行 交 换 的 数据 的 格式 。 


5.18.1 例子 : 在 客户 与 服务 器 之 间 传 递 文本 串 
修改 我 们 的 服务 器 程序 ， 它 仍然 从 客户 读 入 一 行文 本 ， 不 过 新 的 服 
务 器 期 望 该 文本 行 包含 由 空格 分 开 的 两 个 整数 ， 服 务 器 将 返回 这 两 个 整 


数 的 和 。 我 们 的 客户 和 服务 器 程序 的 main 函 数 仍 保持 不 变 ，str_c1li 了 | 
数 也 保持 不 变 ， 所 有 修改 都 在 str_echo 函 数 ， 如 图 5-17 所 示 。 

















146~ 147 
tepeliserwsir_echo§.c 
1 inclue "unp.h" 
4 void 
3 otr echo(int cockfd) 
4 1 
leceng argi, arg2; 
€ goize t n; 
caar line [MAXL=NBI ; 
F fcr 1 s3) { 
9 i= [( (1 = xeadline(sockfd, Line, MEXLINE}) == 0) 
10 return; /* cormecticn closed by stner ond */ 
11 if (sscanf(line, '*$1d$l2", &argl, garaz) == 2) 
12 snprintf (line, sizeof{line), "$123Xn*, argil + arg2); 
13 else 
14 snprintf(line, sizeof(line), "input srrorMn"!; 
15 n = str-an(line); 
16 Writen(so2c«fd, line, ni; 
17 } 
18 : 


repcliserwsir 2oho08.c 
图 5-17 SA BOR AIA str_echo pki ZA 


11-14 ”我 们 调用 sscanf 把 文本 串 中 的 两 个 参数 转换 为 长 整数 ， 然 
后 调用 snprintf 把 结果 转换 为 文本 串 。 


不 论 客 户 和 服务 器 主机 的 字 节 序 如 何 ， 这 个 新 的 客户 和 服务 器 程序 


对 都 工作 得 很 好 。 


5.18.2. f] T: 在 客户 与 服务 器 之 间 传 递 二 进 制 结 
构 


现在 把 我 们 的 客户 和 服务 器 程序 修改 为 穿越 套 接 字 传递 二 进 制 值 
(而 不 是 文本 串 ) 。 我 们 将 看 到 ， 当 这 样 的 客户 和 服务 器 程序 运行 在 字 
B op pseudo TES 工作 将 

常 (图 1-17) 。 


我 们 的 客户 和 服务 器 程序 的 main 函 数 无 需 改动 。 在 头 文件 sum.h 
中 ， 我 们 给 两 个 参数 定义 了 一 个 结构 ， 给 结果 定义 了 男 一 个 结构 ， 如 图 
5-18HT7k. Éd5-1928 1H f str. clipA ZA. 











t(cpciiservisum.h 
1 struct. arys [ 
lonq arg1; 





3 long arg2; 
a}; 
£ struct result | 
É lorg sum; 
7 
Icpclisarvsum.h 
图 5-18 3: xc fsum.h 
'cpelisenwstr. cD09, c 

1 &ircduce “up. ti" 
2 firclude 'sum. k" 
i woid 
4 str_clilFILE *2Zp. int sccsfd) 
si 
€ csar serdline[MAXLINE] ; 
" SzYuct args arcs; 
Ê &-rac- restlt result; 
$ wbile (Fyets(sendline, MAXLIME, fp) !- NULL) : 
10 it lescant(sendline, "tXldtld', Garce.argl, &arge.sr32) I= 2! | 
11 princf(*invalid input: te", senáline); 
12 cortinuc; 
13 
14 W-itsn(socxfd, &args, sizeofíargs)): 
15 i= ({kKeadnisockfd, &result, Bizeof (result)) == Y) 
16 err_quit ("str_cli: server terminated premazurely") ; 
17 przintf(*$1dXn", result .sun) ; 
13 } 
19 : 


topneliservéstr cli. c 


图 5-19 AIS PS HEE ll SETA IR s Istr clik% 


19-14 ”sscanf 把 两 个 参数 从 文本 串 转 换 为 二 进 制 数 ， 我 们 接着 调 
用 writen 将 该 参数 结构 发 送 给 服务 器 。 


15-17 “我们 调用 readn 来 读 回 应 答 ， 并 用 printf 来 输出 结果 。 


图 5-20 给 出 了 str_echo 函 数 。 


tepelisecvsir. ezhoUS.c 





1 #include 'unp.t* 

2 Hinclude ‘sun. n” 

3 void 

4 str_echofint sockfd) 

5 { 

6 ssize t n: 

7 struct args args; 

a struct result result; 

a for i;;){ 

LO if |; in = Readn(sockfd, args, sizeof[(aras!)) — 0) 
11 return; /* connection closed by other crd */ 
12 result.sum = args.argl * args.a>g2; 

13 Writen(sxkfü, Fresull, sizeof (res 117) ; 

14 ) 


repeliservsir 20bo0€.c 








图 5-20 ”对 两 个 二 进 制 整 数 求 和 的 str_echo 函 数 
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9~14 ”我 们 通过 调用 readn 来 读 入 参数 ， 计 算 并 存储 两 数 之 和 ， 然 
后 调用 writen 把 结果 结构 发 回 。 


如 果 我 们 在 具有 相同 体系 结构 的 两 个 主机 〈 壁 如 说 两 个 SPARC 主 
HO 上 运行 我 们 的 客户 和 服务 嚣 程序， 那么 什么 问题 都 没有 。 下 面 是 客 
户 的 交互 过 程 : 


solaris % tcpcli09 12.106.32.254 





11 22 我 们 键入 这 两 个 数 

33 这 个 数 是 服务 器 的 应 答 
-11 -44 

-55 


但 是 如 果 在 具有 不 同体 系 结构 的 两 个 主机 上 运行 同样 的 客户 和 服务 
器 程序 〈 壁 如 说 服务 器 程序 运行 在 大 端 字 节 序 的 SPARC 系 统 freebsd 
上 ， 客 户 运行 在 小 端 字 节 序 的 Intel 系 统 linux 上 ) ， 那 就 无 法 工作 了 。 


linux % tcpcli09 206.168.112.96 
12 





我 们 键入 这 两 个 数 
结果 正 


























3 确 
-22 -77 我 们 再 键入 另外 两 个 数 
-16777314 结果 错误 





问题 在 于 由 客户 以 小 端 字 节 序 格式 罕 越 套 接 字 送 出 的 两 个 二 进 制 整 
数 ， 却 被 服务 器 解释 成 了 大 端 字 节 序 上 整数。 我 们 看 到 这 对 客户 和 服务 器 
对 于 正 整数 看 起 来 工作 正常 ， 但 是 对 于 负 整 数 则 工作 失常 了 《见习 题 
5.8) 。 本 例子 实际 上 存在 三 个 潜在 的 问题 。 


(1) 不 同 的 实现 以 不 同 的 格式 存储 二 进 制 数 。 最 常见 的 格式 便 是 3.4 
节 讨 论 过 的 大 器 字 市 序 与 小 端 字 节 序 。 


(2) 不同 的 实现 在 存储 相同 的 C 数 据 类 型 上 可 能 存在 差异 。 举 例 来 
说 ， 大 多 数 32 位 Unix 系 统 使 用 32 位 表示 长 整数 ， 而 64 位 系统 却 典 型 地 使 
用 64 位 来 表示 同样 的 数据 类 型 〈 图 1-17) 。 对 于 short、int 或 long 等 整 
数 类 型 ， 它 们 各 自 的 大 小 没有 确定 的 保证 。 


(3) 不 同 的 实现 给 结构 打包 的 方式 存在 差异 ， 取 决 于 各 种 数据 类 型 
A a 
\ He HA HS o 


解决 这 种 数据 格式 问题 有 两 个 常用 方法 。 


(1) 把 所 有 的 数值 数据 作为 文本 串 来 传递 。 这 就 是 图 5-17 的 做 法 。 
当然 这 里 假设 客户 和 服务 器 主机 具有 相同 的 字符 集 。 


(2) 显 式 定义 所 文 持 数据 类 型 的 二 进 制 格式 〈 位 数 、 大 端 或 小 端 字 
节 序 ) ， 并 以 这 样 的 格式 在 客户 与 服务 器 之 间 传 递 所 有 数据 。 远 程 过程 
调用 (Remote Procedure Call, RPC) 软件 包 通 常 使 用 这 种 技术 。RFC 
1832 [Srinivasan 1995] FAIA Y Sun RPC 软件 包 所 用 的 外 部 数据 表示 
(External Data Representation, XDR) 标准 。 
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5.19 ”小 结 


我 们 的 回 射 客户 /服务 器 程序 的 第 一 个 版 本 总 共 约 150 行 (包括 函 
数 readline 和 writen) ， 不 过 提供 了 许多 值得 查看 的 细节 问题 。 我 们 过 
到 的 第 一 个 问题 是 僵 死 子 进程 ， 通 过 捕获 STGcHLD 信 号 加 以 处 理 。 我 们 
演示 过 该 信号 的 处 理 函 数 随 后 必须 调用 的 是 waitpid 国 数 而 不 是 较 早 的 
wait 函 数 ， 因 为 Unix 信 号 是 不 排队 的 。 这 一 点 促成 我 们 了 解 POSIX 信 和 号 
处 理 的 一 些 细节 《关于 信号 处 理 的 额外 信息 参见 APUE 第 10 章 ) 。 


我 们 遇 到 的 下 一 问题 是 当 服 务 器 进程 终止 时 ， 客 户 进程 没 被 告知 。 
我 们 看 到 客户 的 TCP 确 实 被 告知 了 ， 但 是 客户 进程 由 于 正 阻 塞 于 等 待 用 
户 输入 而 未 接收 到 该 通知 。 我 们 将 在 第 6 章 中 使 用 select 或 po11 函 数 来 
它们 等 待 多 个 描述 符 中 的 任何 一 个 就 绪 而 不 是 阻塞 于 单 
MHAIR FF e 


我 们 还 发 现 ， 服 务 器 主机 崩 尝 的 情形 要 等 到 客户 向 服务 器 发 送 了 数 
据 才能 检测 到 。 有 些 应 用 进程 要 求 能 够 尽早 了 解 这 个 事实 ， 我 们 将 在 
7.5 节 利用 so_KEEPALIVE 套 接 字 选项 来 解雇 该 问题 。 


我 们 的 简单 例子 交换 的 是 文本 行 ， 既 然 服 务 器 根本 不 检查 所 回 射 的 
文本 行 ， 那 么 没什么 问题 。 然 而 在 客户 与 服务 器 之 间 发 送 数值 数据 时 将 
引发 一 组 新 间 题 ， 文 中 已 经 讲述 。 




















习题 


5.1 基于 图 5-2 和 图 5-3 构 造 一 个 TCP 服 务 器 程序 ， 基 于 图 5-4 和 图 5- 
5 构造 一 个 TCP 客 户 程序 。 先 启动 服务 器 ， 再 启动 客户 。 键 入 若干 文本 
行 以 确认 客户 和 服务 器 工作 正常 。 通 过 键入 EOF 字 符 终 止 客户 ， 并 记 下 
时 间 。 在 客户 主机 上 使 用 netstat 命 令 验证 本 连接 的 客户 端 在 经 历 
TIME_WAIT 状 态 。 此 后 每 5 秒 钟 左右 执行 一 次 netstat， 查 看 
TIME_WAIT 状 态 何 时 结束 。 该 客户 主机 的 网 络 实现 设置 的 MSL (最 长 
分 节 生 命 期 有 多 大 ? 


5.2. ”对 于 我 们 的 客户 /服务 嚣 程序， 如果 我 们 在 运行 客户 时 把 它 的 
标准 输入 重 定 向 到 一 个 二 进 制 文件 ， 将 会 发 生 什 么 ? 


5.3 我 们 的 回 射 客户 /服务 喜之 间 的 通信 与 利用 Telnet 客 户 跟 我 们 的 
回 射 服务 器 通信 相 比较 ， 存 在 什么 差别 ? 


5.4 在 5.12 节 的 例子 中 ， 我 们 使 用 netstat 命 令 通 过 查看 套 接 字 状 
态 验 证 了 连接 终止 序列 的 前 两 个 分 节 〈 来 自 服 务 器 的 FIN 和 来 自 客 户 的 
对 该 分 节 的 ACK) 已 经 发 送 。 该 序列 的 后 两 个 分 节 【〈 来 自 客 户 的 FIN 和 
来 自 服 务 器 的 对 该 分 节 的 ACK) 会 交换 吗 ? 如果 交 换 的 话 ， 何 时 交换 ? 
如 果 不 交 换 的 话 ， 为 什么 ? 


5.5 在 5.14 节 给 出 的 例子 中 ， 如 宁 我 们 在 步骤 2 与 步骤 3 之 间 重 新 局 
NARS a EBLE MARS ae ERE, RS REIT? 
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5.6 ”为 了 验证 我 们 在 5.13 节 中 声明 的 关于 产生 SIGPIPE 信 号 的 推 
断 ， 我 们 对 图 5-4 作 如 下 修改 。 编 写 一 个 sSI6PIPE 信 号 处 理 函 数 ， 它 只 是 
显示 一 条 消息 便 返 回 。 在 调用 connect 之 前 建立 该 信号 处 理 函 数 。 把 服 
务 器 的 端口 号 改 为 13， 即 daytime 服 务 匿 。 连 接 建立 后 ， 调 用 sleep 睡 眠 2 
秒 钟 ， 然 后 调用 write 往 套 接 字 中 写 入 若干 字 节 ， 再 sleep 25, 18 
接 字 中 再 write 知 干 字 节 。 和 运行 该 程序 ， 观 察 它 将 会 发 生 什么 ? 


5.7 在 图 5-15 中 ， 如 果 由 客户 在 connect 调 用 中 指定 的 服务 器 主机 
的 IP 地 址 是 与 其 右 侧 的 数据 链 路 关联 的 IP 地 址 ， 而 不 是 与 其 左 侧 的 数据 


























链 路 关联 的 IP 地 址 ， 将 会 发 生 什么 ? 


5.8 在 出 上 自 图 5-20 的 例子 输出 中 ， 当 客户 和 服务 器 位 于 不 同 字 节 序 
的 系统 上 时 ， 对 于 小 的 正 整数 该 例子 工作 正常 ， 但 是 对 于 小 的 负 整数 则 
Tr a a 

ae 


5.9 在 图 5-19 和 图 5-20 的 例子 中 ， 我 们 可 以 通过 让 客户 先 调 
用 hton1 函 数 把 它 的 两 个 参数 转换 成 网 络 字 节 序 ， 再 让 服务 器 在 做 加 法 
人 
F jh) B IU ? 


5.10 ”如果 客 户 在 某 个 以 32 位 存储 长 整数 的 SPARC 主 机 上 ， 而 服务 
器 在 以 64 位 存储 长 整数 的 Digital Alpha 主 机 上 ， 图 5-19 和 图 5-20 中 的 例子 
将 会 发 生 什 么 ? 如 果 客 户 和 服务 器 在 这 两 个 主机 间 互 换 ， 结 果 会 改变 
吗 ? 


5.11 在 图 5-15 中 ， 我 们 说 客户 IP 地 址 是 由 IP 基 于 路 由 选 定 的 ， 这 


是 什么 含义 ? 
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Q@ 这 一 版 的 新 作者 在 图 3-17 和 图 3-18 中 修正 了 第 2 版 中 对 应 的 图 3-16 和 图 
3-17 中 的 一 个 错误 ， 也 就 是 在 读 入 一 些 数据 后 再 人 磅 到 EOF 的 情况 下 ， 

Stevens 先 生 把 读 入 字符 数 少 减 了 1; 不 过 他 们 却 在 图 5-3 中 过 早 地 使 用 了 
不 以 文本 行为 中 心 的 代码 ， 而 本 书 以 文本 行为 中 心 的 回 射 服务 讨论 将 持 
续 到 6.7 节 为 止 。 在 本 书 以 文本 行为 中 心 的 回 射 服务 讨论 中 ， 隐 舍 假 设 
服务 器 也 是 面向 文本 行 从 套 接 字 读 取 数据 ， 以 便 进 一 步 处 理 ( 见 5.18 

节 ) ， 尽 管 纯粹 的 回 射 服务 没有 这 个 需要 。 从 这 个 意义 上 看 ， 第 2 版 中 
对 应 的 图 5-3 更 为 确切 ， 而 且 尽 管 新 作者 修改 了 str_echo 函 数 ， 在 随后 的 
章节 中 却 又 不 加 修改 地 沿用 Stevens 先 生 的 解释 ， 可 能 会 让 读者 觉得 不 知 
所 云 。 为 此 译 者 建议 读者 仍然 采用 第 2 版 中 对 应 的 图 5-3， 图 5-1 也 调整 为 
第 2 版 中 对 应 的 图 5-1( 即 TCP 服 务 器 使 用 readline 而 不 是 read 读 入 文本 
行 )。 话 说 回来 ， 从 纯粹 的 回 射 服务 角度 看 ， 图 5-3 是 正确 的 《符合 

RFC 862) ， 而 第 2 版 中 对 应 的 图 5-3 只 能 面向 文本 行 ， 而 不 能 面向 二 进 
制 数据 。 需 指出 的 是 ， 面 向 文本 行 的 套 接 字 读 操作 中 ， 一 次 read 调 用 不 
能 保证 读 入 完整 的 一 行 或 数 行 ， 而 读 入 完整 的 一 行 可 能 需要 多 次 read 调 

















用 ， 并 检查 其 中 是 否 出 现 换行 符 〈 这 就 是 图 3-17 和 图 3-18 中 的 readline 
函数 的 功能 ) 。 如 果 在 回 射 服务 器 调用 的 str_echo 国 数 中 舍弃 现成 的 
readline KA Hj 而 直接 使 用 read 系 统 调用 , 那么 有 可 能 在 尚未 完全 读 
入 一 行文 本 之 前 ， 就 开始 回 射 其 中 的 内 容 了 。 客 户 不 会 显示 这 样 的 不 完 
整 文本 行 ， 因 为 客户 的 套 接 字 读 操 作 使 用 的 是 readline 而 不 是 read。 事 
实 上 服务 器 也 不 大 可 能 读 入 不 完整 的 文本 行 ， 因 为 客户 把 一 个 完整 的 文 
本 行 一 次 性 地 写 入 套 接 字 ， 而 较 短 的 文本 行 通常 就 被 封闭 在 单个 TCP 分 
节 中 递送 到 对 端 ， 如 果 MAXLINE 季 值 足够 大 ， 那 么 通 各 情况 下 一 次 读 操 
作 恰 好 读 入 完整 的 一 行 ， 相反 ， 超 过 MSS 的 文本 行将 被 封装 到 多 个 TCP 
分 节 中 递送 ， 服 务 器 可 能 就 需要 多 次 read 调 用 才能 读 入 完整 的 一 行 。 如 
果 客 户 把 一 个 完整 的 文本 行 分 多 次 写 入 套 接 字 〈 璧 如 像 Telnet 客 户 那 样 
把 每 个 字符 封装 在 单个 分 节 中 递送 到 对 端 ) ， 那 么 服务 器 将 持续 读 入 不 
完整 的 文本 行 ，7.9 节 讲解 TCP 的 Nagle 算 法 时 就 有 这 样 的 例子 。 另 外 ， 
对 于 新 作者 在 图 3-17 和 图 3-18 中 修正 的 那个 错误 ， 译 者 认为 更 受 帖 的 做 
法 是 给 这 种 不 是 以 换行 符 结 束 的 文本 行 添加 一 个 换行 件 ， 也 就 是 在 第 2 
版 的 图 3-16 和 图 3-17 中 处 理 这 种 情况 时 添加 一 个 语句 : “*ptr++ = 
Nnt”, 这 样 读 入 字符 数 就 不 用 再 减 1 了 。 这 种 做 法 有 例 可 循 ， 壁 如 
用 vi 编辑 器 编辑 并 保存 最 后 一 行 不 是 以 换行 符 结 尾 的 文本 文件 时 ，vi 同 
样 会 给 最 后 一 行 添加 一 个 换行 人 符 。 一 一 译 者 注 


包 信 号 处 理 函 数 也 称 为 信号 处 理 程序 ， 这 是 相对 于 main 函 数 所 在 的 主 程 
序 而 言 的 。 一 一 译 者 注 


@) 构 造 程序 是 指使 用 make 工 具 把 源 程序 和 /或 目标 程序 编译 链接 成 可 执行 
程序 。 本 书 随 意 可 得 的 源 代 码 〈 见 前 言 ) 提供 了 构造 其 中 各 个 程序 的 
makefile 文 件 。 译 者 注 


出 这 里 的 阻塞 不 同 于 我 们 此 前 一 直 使 用 的 同名 词 。 这 里 的 阻塞 是 指 阻塞 
某 个 信号 或 某 个 信号 集 ， 防 止 它们 在 阻 寨 期 间 递 交 Cdelivering) 。 它 的 
反 操 作 称 为 解 阻 蹇 。 而 此 前 一 直 使 用 的 阻塞 是 指 阻塞 在 某 个 系统 调用 
上 ， 也 惑 是 说 这 个 系统 调用 因为 目前 没有 必要 资源 可 用 而 必须 等 待 ， 直 
到 这 些 资源 变 为 可 用 后 才 可 能 返回 。 等 待 期 间 进 程 进 入 睡眠 状态 。 与 它 
相对 的 概念 是 非 阻 宗 ， 也 就 是 说 非 阻 塞 的 系统 调用 即使 没有 必要 资源 可 
用 也 立即 返回 ， 不 过 会 告诉 调用 者 发 生 了 这 种 情况 ， 这 样 调用 者 可 以 继 
续 调 用 同一 个 系统 调用 。 Pale 


CN i Ue MRR Aissicterm(a Ss, RATARI as HSIGKILL {a SA 
止 。SIGTERM 信 号 的 默认 处 置 就 是 终止 进程 ， 因 此 要 是 我 们 不 捕获 它 









































(也 不 忽略 它 ) ， 那 么 起 作用 的 是 它 的 默认 处 置 ， 我 们 的 服务 器 将 被 
SIGTERM 信 号 终止 ，SsIGKILL 信 号 不 可 能 再 发 送 给 它 。 一 一 译 者 注 


第 6 章 ”IO 复 用 : selecti poll xX 


6.1 概述 


在 5.12 节 中 ， 我 们 看 到 TCP 客 户 同 时 处 理 两 个 输入 : 标准 输入 和 
TCP 套 接 字 。 我 们 过 到 的 问题 是 就 在 客户 阻塞 于 (标准 输入 上 
的 ) fgets 调 用 期 间 ， 服 务 器 进程 会 被 杀 死 。 服 务 器 TCP 虽 然 正确 地 给 
客户 TCP 发 送 了 一 个 FIN， 但 是 既然 客户 进程 正 阻 罕 于 从 标准 输入 读 入 
的 过 程 ， 它 将 看 不 到 这 个 EOF， 直 到 从 套 接 字 读 时 为 止 (可 能 已 过 了 很 
长 时 间 ) 。 这 样 的 进程 需要 一 种 预先 告 知 内 核 的 能 力 ， 使 得 内 核 一 旦 发 
现 进程 指定 的 一 个 或 多 个 IO 条 件 就 绪 《〈 也 就 是 说 输入 已 准备 好 被 读 
取 ， 或 者 描述 符 已 能 承接 更 多 的 输出 ) ， 它 就 通知 进程 。 这 个 能 力 称 ， 
VOH C/O multiplexing) ， 是 由 select 和 pol1 这 两 个 函数 文 持 的 。 我 
们 还 介绍 前 者 较 新 的 称 为 pselect 的 POSIX 变 种 。 

有 些 系统 提供 了 更 为 先进 的 让 进程 在 一 串 事 件 上 等 待 的 机 制 。 轮 询 
设备 (poll device) 就 是 这 样 的 机 制 之 一 ， 不 过 不 同 广 家 提供 的 方式 不 
尽 相 同 。 我 们 将 在 第 14 章 中 冰 述 这 种 机 制 。 


IO 复 用 典型 使 用 在 下 列 网 络 应 用 场合 。 

















当 客 户 处 理 多 个 描述 符 《〈 通 常 是 交互 式 输入 和 网 络 套 接 字 ) 时 ， 必 
须 使 用 VO 复 用 。 这 是 我 们 早先 讲述 过 的 场合 。 

一 个 客户 同时 处理 多 个 套 接 字 是 可 能 的 ， 不 过 比较 少见 。 我 们 将 在 
16.5 节 中 结合 一 个 Web 客 户 的 上 下 文 给 出 这 种 场合 使 用 select 的 例 
d 
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如 果 一 个 TCP 服 务 器 既 要 处 理 监 听 套 接 字 ， 又 要 处 理 已 连接 套 接 
字 ， 一 般 就 要 使 用 1/O 复 用 ， 如 6.8 节 所 述 。 

如 果 一 个 服务 器 即 要 处 理 TCP， 又 要 处 理 UDP， 一 般 就 要 使 用 MO 复 
用 。 我 们 将 在 8.15 节 给 出 这 种 场合 的 一 个 例子 。 








。 如 果 一 个 服务 器 要 处 理 多 个 服务 或 者 多 个 协议 例如 我 们 将 在 13.5 
市 讲述 的 inetd 守 护 进 程 》， 一 般 就 要 使 用 1/O 复 用 。 


E 
项 技术 。 


62 LIOS 


在 介绍 select 和 pol1 这 两 个 函数 之 前 ， 我 们 需要 回顾 整体 ， 碍 看 
Unix 下 可 用 的 5 种 IO 模型 的 基本 区 别 : 


阻塞 式 IO; 

JEB Æ RIO; 

VOSA (select 和 po11) ; 

信和 号 驱动 式 UHO (SIGIO) ; 

异步 JO (POSIX 的 aio_ 系 列 函 数 ) 。 


首次 阅读 本 书 时 ， 你 可 以 略 读本 节 ， 在 碰 到 以 后 各 章节 中 详细 介绍 
的 各 种 MO 模型 时 再 回头 细 读 。 


正如 我 们 将 在 本 节 给 出 的 所 有 例子 所 示 ， 一 个 输入 操作 通常 包括 两 
个 不 同 的 阶段 : 


(1) 等 竺 数据 准备 好 ; 
(2) 从 内 核 问 进程 复制 数据 。 
对 于 一 个 套 接 字 上 的 输入 操作 ， 第 一 步 通 党 涉及 等 得 数据 从 网 络 中 


到 达 。 当 所 等 竺 分 组 到 达 时 ， 它 被 复制 到 内 核 中 的 某 个 缓冲 区 。 第 二 步 
就 是 把 数据 从 内 核 缓 冲 区 复制 到 应 用 进程 缓冲 区 。 


6.2.1 阻塞 式 VO 模 型 
最 流行 的 VO 模型 是 阻塞 式 WO (blocking LOO 模型 ， 本 书 到 目前 为 


目的 所 有 例子 都 使 用 该 模型 。 默 认 情 形 下 ， 所 有 和 套 接 字 都 是 阻 旱 的 。 以 
数据 报 僚 接 字 作 为 例子 ， 我 们 有 如 图 6-1 所 示 的 情形 。 








应 用 进程 内 核 
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图 6-1 阻塞 式 IO 模 型 


我 们 使 用 UDP 而 不 是 TCP 作 为 例子 的 原因 在 于 就 UDP 而 言 ， 数 据 准 
备 好 读 取 的 概念 比较 简单 : 要 么 整个 数据 报 已 经 收 到 ， 要 么 还 没有 。 然 
而 对 于 TCP 来 说 ， 诸 如 套 接 字 低 水 位 标记 Clow-water mark) 等 额外 变量 
开始 起 作用 ， 导 致 这 个 概念 变 得 复杂 。 


在 本 节 的 例子 中 ， 我 们 把 recvfrom 函 数 视 为 系统 调用 ， 因 为 我 们 正 
在 区 分 应 用 进程 和 和 内核。 不 论 它 如 何 实现 《〈 在 源 目 Berkeley 的 内 核 上 是 
作为 系统 调用 ， 在 System V 内 核 上 是 作为 调用 系统 调用 getmsg 的 函 
ŽO ， 一 般 都 会 从 在 应 用 进程 空间 中 运行 切换 到 在 内 核 空间 中 运行 ， 一 
段 时 间 之 后 再 切换 回来 。 


在 图 6-1 中 ， 进 程 调 用 recvfrom， 其 系统 调用 直到 数据 报到 达 且 被 复 
制 到 应 用 进程 的 缓冲 区 中 或 者 发 生 错 误 才 返回 。 最 第 见 的 错误 是 系统 调 
用 被 信号 中 断 ， 如 5.9 节 所 述 。 我 们 说 进程 在 从 调用 recvfrom 开 始 到 它 返 
RM 内 是 被 阻塞 的 。recvfrom 成 功 返 回 后 ， 应 用 进程 开始 处 理 
数据 报 。 


6.2.2” 非 阻塞 式 VO 模 型 


进程 把 一 个 套 接 字 设 置 成 非 阻 塞 是 在 通知 内 核 : 当 所 请 求 的 MO 操 
作 非 得 把 本 进程 投入 睡眠 才能 完成 时 ， 不 要 把 本 进程 投入 睡眠， 而 是 返 
回 一 个 错误 。 我 们 将 在 第 16 章 中 详细 介绍 非 阻塞 式 VO (nonblocking 














VO) ， 不 过 图 6-2 概 要 展示 了 我 们 即将 考虑 的 例子 。 
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图 6-2” 非 阻 塞 式 MO 模 型 


前 三 次 调用 recvfrom 时 没有 数据 可 返回 ， 因 此 内 核 转 而 立即 返回 一 
个 EwouLDBLOCK 错 误 。 第 四 次 调用 recvfrom 时 已 有 一 个 数据 报 准备 好 ， 它 
被 复制 到 应 用 进程 缓冲 区 ， 于 是 recvfrom 成 功 返 回 。 我 们 接着 处 理 数 
据 。 


当 一 个 应 用 进程 像 这 样 对 一 个 非 阻塞 描述 符 循 环 调用 recvfrom 时 ， 
我 们 称 之 为 轮 询 〈polling) 。 应 用 进程 持续 轮 询 内 核 ， 以 查看 茶 个 操作 
是 否 就 络 。 这 么 做 往往 耗费 大 量 CPU 时 间 ， 不 过 这 种 模型 偶尔 也 会 遇 
到 ， 通 第 是 在 专门 提供 某 一 种 功能 的 系统 中 才 有 。 
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62.3 VOR HRH 


有 了 LO 复 用 (VO multiplexing) ， 我 们 就 可 以 调用 select 或 po11， 
阻塞 在 这 两 个 系统 调用 中 的 某 一 个 之 上 ， 而 不 是 阻 喜 在 真正 的 IO 系 统 
调用 上 。 图 6-3 概 括 展示 了 IO 复 用 模型 。 
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图 6-3 VORA KAY 


我 们 阻塞 于 select 调 用 ， 等 竺 数据 报 套 接 字 变 为 可 读 。 当 select 返 
回 套 接 字 可 读 这 一 条 件 时 ， An recvfrom 把 所 读数 据 报 复制 到 应 用 
进程 缓冲 区 。 


比较 图 6-3 和 图 6-1，LIO 复 用 并 不 显得 有 什么 优势 ， 事 实 上 由 于 使 
用 select 需 要 两 个 而 不 是 单个 系统 调用 ，LIO 复 用 还 稍 有 劣势 。 不 过 我 
a ie 使 用 select 的 优势 在 于 我 们 可 以 等 待 多 个 描述 符 


与 IO 复 用 密切 相关 的 另 一 种 MO 模型 是 在 多 线程 中 使 用 阻塞 式 IO。 
这 种 模型 与 上 述 模型 极为 相似 ， 但 它 没 有 使 用 select 阻 塞 在 多 个 文件 摘 
述 符 上 ， 而 是 使 用 多 个 线程 〈 每 个 文件 描述 符 一 个 线程 ) ， 这 样 每 个 线 
程 都 可 以 自由 地 调用 诸如 recvfrom 之 类 的 阻 寨 式 W/O 系统 调用 了 。 


6.2.4 ”信号 驱动 式 W/O 模 型 
我 们 也 可 以 用 信号 ， LEP AEREE ERIN AISSTGIO H5 BE 


们 。 我 们 称 这 种 模型 为 信号 驱动 式 IO (signal-driven I/O) ， 图 6-4 是 它 
的 概要 展示 。 








157 


I Fe stis m 
sigaction#: 4 ARI 
Oo 


_ Wish 一 一 一 一 一 一 一 
fecu uU jalo] 


uUAEHEIS 2 
| 
| 
> My srGio 

ATERT c ————————— S6 JE E fi 


reevErom SR UU ee 复制 deci (| 


E i $0 HIS 


uda ; 将 数据 从 内 
np 28] EFI 5:13 


> bes WS) 4 
"f 


< 


返回 成 功 指 示 





M UM UH 
图 6-4 ”信号 驱动 式 VO 模 型 


我 们 首先 开启 套 接 字 的 信号 驱动 式 1O 功 能 (我 们 将 在 25.2 市 讲解 这 
个 过 程 ) ， 并 通过 sigaction 系 统 调 用 安装 一 个 信号 处 理 函 数 。 该 系统 
调用 将 立即 返回 ， 我 们 的 进程 继续 工作 ， 也 就 是 说 它 没 有 被 阻塞 。 当 数 
据 报 准备 好 读 取 时 ， 内 核 束 为 该 进程 产生 一 个 srI6I0 信 号 。 我 们 随后 既 
可 以 在 信号 处 理 函数 中 调用 recvfrom 读 取 数 据 报 ， 并 通知 主 循环 数据 已 
准备 好 待 处 理 〈 这 正 是 我 们 将 在 25.3 节 中 所 要 做 的 事情 ) ， 也 可 以 立即 
通知 主 循环 ， 让 它 读 取 数据 报 。 


无 论 如 何 处 理 sTGIo 信 号 ， 这 种 模型 的 优势 在 于 等 竺 数据 报到 达 期 
间 进 程 不 锌 阻塞 。 主 循环 可 LARS 卖 执行 ， 只 蓝 等 待 来 自信 号 处 理 函 数 的 
通知 : 既 可 以 是 数据 已 准备 好 被 处 理 ， 也 可 以 是 数据 报 已 准备 好 被 读 
取 。 

















62.5 “异步 7O 模 型 


异步 JO (asynchronous IO) 由 POSIX 规 范 定 义 。 演 变 成 当前 
POSIX 规 范 的 各 种 早期 标准 所 定义 的 实时 函数 中 存在 的 差异 已 经 取得 一 
致 。 一 般 地 说 ， 这 些 函 数 的 工作 机 制 是 : 告知 内 核 局 动 某 个 操作 ， 并 让 
内 核 在 整个 操作 《包括 将 数据 从 内 核 复制 到 我 们 上 自己 的 缓冲 区 ) 完成 后 
通知 我 们 。 这 种 模型 与 前 一 节 介 绍 的 信号 驱动 模型 的 主要 区 别 在 于 : fs 
写 驱 动 式 1/O 是 由 内 核 通知 我 们 何 时 可 以 启动 一 个 VO 操作 ， 而 异步 1/O 模 
型 是 由 内 核 通知 我 们 WO 操作 何 时 完成 。 图 6-5 给 出 了 一 个 例子 。 
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图 6-5 “异步 IO 模型 


FRAT H]jaio readPÉ žit (POSIX I/O rh Zi aio 或 1io 开头) , 
给 内 核 传递 描述 符 、 绥 冲 区 指针 、 绥 冲 区 大 小 《与 read 相 同 的 三 个 参 
数 ) 和 文件 偏 移 (与 1seek 类 似 )， 并 告诉 内 核 当 整个 操作 完成 时 如 何 
通知 我 们 。 该 系统 调用 立即 返回 ， 而 且 在 等 待 O 完 成 期 间 ， 我 们 的 进 
程 不 被 阻塞 。 本 例子 中 我 们 假设 要 求 内 核 在 操作 完成 时 产生 某 个 信号。 
该 信号 直到 数据 已 复制 到 应 用 进程 缓冲 区 才 产 生 ， 这 一 点 不 同 于 信号 驱 
动 式 IO 模 型 。 


本 书 编写 至 此 的 时 候 ， 支 持 POSIX 异 步 /O 模 型 的 系统 仍 较 罕见 。 
我 们 不 能 确定 这 样 的 系统 是 否 支持 套 接 字 上 的 这 种 模型 。 这 儿 我 们 只 是 
用 它 作为 一 个 与 信号 驱动 式 IJO 模 型 相 比 照 的 例子 。 


62.6 ”各 种 IO 模型 的 比较 


图 6-6 对 比 了 上 述 5 种 不 同 的 IO 模型 。 可 以 看 出 ， 前 4 种 模型 的 主要 
区 别 在 于 第 一 阶段 ， 因 为 它们 的 第 二 阶段 是 一 样 的 : 在 数据 从 内 核 复 制 
到 调用 者 的 缓冲 区 期 间 ， 进 程 阻塞 于 recvfrom 调 用 。 相 反 ， 异 步 1/O 模 型 
在 这 两 个 阶段 都 要 处 理 ， 从 而 不 同 于 其 他 4 种 模型 。 














IHR SCO yos nm fi sra SIC UO 

















A WrvWPEG SSSA RRA CPP recy Drom YD UEP PA A ER 


图 6-6 5 种 WO 模型 的 比较 
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6.2.7 ”同步 WO 和 异步 WO 对 比 
POSIX 把 这 两 个 术语 定义 如 下 : 


e 同步 IO 操作 (synchronous I/O opetation) 导致 请 求 进程 阻塞 ， 直 到 
IO 操作 完成 ; 
e 异步 IO 操作 (asynchronous I/O opetation) 不 导致 请 求 进程 阻塞 。 


根据 上 述 定 义 ， 我 们 的 前 4 种 模型 一 -阻塞 式 IO 模 型 、 非 阻塞 式 IO 
模型 、IO 复 用 模型 和 信和 号 驱动 式 JO 模 型 都 是 同步 IO 模型 ， 因 为 其 中 真 
正 的 VO 操作 (recvfrom) 将 阻塞 进程 。 只 有 异步 /O 模 型 与 POSIX 定 义 
的 异步 WO 相 匹 配 。 





6.3 select PA AV 


该 函数 允许 进程 指示 内 核 等 待 多 个 事件 中 的 任何 一 个 发 生 ， 并 只 在 
有 一 个 或 多 个 事件 发 生 或 经 历 一 段 指定 的 时 间 后 才 唤 醒 它 。 
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作为 一 个 例子 ， 我 们 可 以 调用 select， 告 知 内核 仅 在 下 列 情 况 发 生 
时 才 返 回 : 








e 集合 {L，4，5} 中 的 任何 描述 符 准 备 好 读 ; 

e 集合 {2，7} 中 的 任何 描述 符 准备 好 写 ; 

。 集合 {L，4} 中 的 任何 描述 符 有 异常 条 件 符 处 理 ; 
e CASA 10.2%). 


也 就 是 说 ， 我 们 调用 select 告 知 内 核对 哪些 摘 述 符 〈 就 读 、 写 或 异 
常 条 件 ) 感 兴 趣 以 及 等 待 多 长 时 间 。 我 们 感 兴趣 的 描述 符 不 局 限于 套 接 
字 ， 任 何 描述 符 都 可 以 使 用 select 来 测试 。 

源 和 日 Berkeley 的 实现 已 经 允许 任何 描述 符 的 VO 复 用 。SVR3 最 初 把 
1/O 复 用 限制 于 对 应 流 设备 STREAMS device, 7,783138) 的 描述 符 ， 
SVR4 则 去 除了 这 个 限制 。 


#include <sys/select.h> 
#include <sys/time.h> 








int select(int maxfdpi, fd set *readset, fd set *writeset, fd set *exceptset, 
const struct timeval *timeout); 




















返回 : 若 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 





























我 们 从 该 函数 的 最 后 一 个 参数 timeout 开 始 介 绍 ， 它 告知 内 核 等 待 所 
指定 描述 符 中 的 任何 一 个 就 绪 可 花 多 长 时 间 。 其 timeval 结 构 用 于 指定 
这 段 时 间 的 秒 数 和 微 秒 数 。 

struct timeval ( 


long tv sec; /* seconds */ 
long tv usec; /* microseconds */ 





这 个 参数 有 以 下 三 种 可 能 。 


(1) 永远 等 竺 下 去 : 仅 在 有 一 个 描述 符 准 备 好 IO 时 才 返 回 。 为 此 ， 
我 们 把 该 参数 设置 为 空 指 针 。 


(2) 等 待 一 段 固定 时 间 ， 在 有 一 个 描述 符 准备 好 IO 时 返回 ， 但 是 不 
超过 由 该 参数 所 指向 的 timeval 结 构 中 指定 的 秒 数 和 微 秒 数 。 


(3) 根本 不 等 待 : 检查 描述 符 后 立即 返回 ， 这 称 为 轮 询 
(polling) 。 为 此 ， 该 参数 必须 指 网 一 个 timeval 结 构 ， 而 且 其 中 的 定时 
器 值 〈 由 该 结构 指定 的 秒 数 和 微 秒 数 ) 必须 为 0。 
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前 两 种 情形 的 等 待 通 第 会 被 进程 在 等 待 期 间 捕获 的 信号 中 断 ， 并 从 
信号 处 理 函 数 返 回 。 


源 自 Berkeley 的 内 核 绝 不 自动 重启 被 中 断 的 select (CTCPv2 第 527 
页 ) ， 然 而 SVR4 可 以 自动 重启 被 中 断 的 select， 条 件 是 在 安装 信号 处 
理 函 数 时 指定 了 sA_RESTART 标 志 。 这 意味 着 从 可 移植 性 考虑 ， 如 果 我 们 
在 捕获 信号 ， 那 么 必须 做 好 select 返 回 EINTR 错 误 的 准备 。 


位 管 timeval 结 构 人 允许 我 们 指定 了 一 个 微 秒 级 的 分 辨 率 ， 然 而 内 核 
支持 的 真实 分 辨 紊 往往 粗糙 得 多 。 举 例 来 说 ， 许 多 Unix 内 核 把 超时 值 向 
上 售 入 成 10 ms 的 倍数 。 另 外 还 涉及 调度 延 返 ， 也 就 是 说 定时 器 时 间 到 
后 ， 内 核 还 需 花 一 点 时 间 调 度 相 应 进程 运行 。 


如 果 timeout 参 数 所 指 癌 的 timeval 结 构 中 的 tv_sec 成 员 值 超过 1 亿 
秒 ， 那 么 有 些 系 统 的 select 函 数 将 以 EINVAL 错 误 失 败 返 回 。 当 然 这 是 一 
个 非常 大 的 超时 值 〈( 超 过 3 年 )， 不 大 可 能 有 用 ， 不 过 就 此 指 
HH: timeval 结 构 能 够 表达 select 不 文 持 的 值 。 


timeout 参 数 的 const 限 定 词 表 示 它 在 函数 返回 时 不 会 被 select 修 
改 。 举 例 来 说 ， 如 果 我 们 指定 一 个 10s 的 超时 值 ， 不 过 在 定时 器 到 时 之 
前 select 就 返回 了 “结果 可 能 是 有 一 个 或 多 个 描述 符 就 绪 ， 也 可 能 是 得 
到 EINTR 错 误 ) ， 那 么 如 neout 参 数 所 指 回 的 timeval 结 构 不 会 被 更 新 成 该 








函数 返回 时 剩余 的 秒 数 。 如 果 我 们 需要 知道 这 个 值 ， 那 么 必须 在 调 

用 select 之 前 取得 系统 时 间 ， 它 返回 后 再 取得 系统 时 间 ， 两 者 相 减 就 是 
该 值 ( 任 何 健壮 的 程序 都 得 考虑 到 系统 时 间 可 能 在 这 段 时 间 内 侦 尔 会 被 
管理 员 或 ntpd 之 类 守护 进程 调整 ) 。 


有 些 Linux 版 本 会 修改 这 个 timeval 结 构 。 因 此 从 移植 性 考虑 ， 我 们 
应 该 假设 该 timeval 结 构 在 select 返 回 时 未 被 定义 ， 因 而 每 次 调用 select 
之 前 都 得 对 它 进行 初始 化 。POSIX 规 定 对 该 结构 使 用 const 限 定 词 。 


中 间 的 三 个 参数 readset、writeset 和 exceptset 指 定 我 们 要 让 内 核 测 试 
读 、 写 和 异常 条 件 的 描述 符 。 目 前 支持 的 异常 条 件 只 有 两 个 : 


0) 菏 个 套 接 字 的 带 外 数据 的 到 达 ， 我 们 将 在 第 24 章 中 详细 讲述 这 
个 异常 条 件 ; 











Q) 某 个 已 置 为 分 组 模式 的 伪 终 端 存在 可 从 其 主 端 读 取 的 控制 状态 
信息 ， 本 书 不 讨论 伪 终 端 。 
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如 何 给 这 3 个 参数 中 的 每 一 个 参数 指定 一 个 或 多 个 描述 符 值 是 一 个 
设计 上 的 问题 。select 使 用 描述 符 集 ， 通 常 是 一 个 整数 数组 ， 其 中 每 个 
整数 中 的 每 一 位 对 应 一 个 描述 符 。 举 例 来 说 ， 假 设 使 用 32 位 整数 ， 那 么 
该 数组 的 第 一 个 元 素 对 应 于 描述 符 0 一 31， 第 二 个 元 素 对 应 于 描述 符 32 
一 63， 依 此 类 推 。 所 有 这 些 实现 细节 都 与 应 用 程序 无 关 ， 它 们 隐藏 在 名 
为 fd_set 的 数据 类 型 和 以 下 四 个 宏 中 : 





void FD ZERO(fd set *fdset); /* clear all bits in fdset */ 

void FD SET(int fd, fd set *fdset); /* turn on the bit for fd in fdset */ 
void FD CLR(int fd, fd set *fdset); /* trun off the bit for fd in fdset */ 
int FD ISSET(int fd, fd set *fdset); /* is the bit for fd on in fdset ? */ 


我 们 分 配 一 个 fd_set 数 据 类 型 的 描述 符 集 ， 并 用 这 些 宏 设 置 或 测试 
该 集合 中 的 每 一 位 ， 也 可 以 用 C 语 言 中 的 赋值 语句 把 它 赋值 成 妨 外 一 个 
描述 符 集 。 


我 们 所 讨论 的 每 个 描述 符 后 用 整数 数组 中 一 位 的 方法 仅仅 是 select 
函数 的 可 能 实现 之 一 。 不 过 把 描述 符 集 中 的 每 个 描述 答 指 称 为 位 (bit) 
是 闸 见 的 ， 例 如 “打开 读 集 合 中 表示 监听 描述 符 的 位 ”。 


dft TECEG. 1075 78 pol RAA — 56 4 FINE: 一 个 
可 变 长 度 的 结构 数组 ， 其 中 每 个 结构 代表 一 个 描述 符 。 


举 个 例子 ， 以 下 代码 用 于 定义 一 个 fd_set 类 型 的 变量 ， 然 后 打开 搞 

述 符 1、4 和 5 的 对 应 位 : 
fd set rset; 

FD ZERO(&rset); /* initialize the set: all bits off */ 

FD SET(1, &rset); /* turn on bit for fd 1 */ 

/ 

/ 


FD SET(4, &rset); * turn on bit for fd 4 */ 
FD SET(5, &rset); * turn on bit for fd 5 */ 





描述 符 集 的 初始 化 非常 重要 ， 因 为 作为 目 动 变量 分 配 的 一 个 描述 符 
集 如 条 没有 初始 化 ， 那 么 可 能 发 生 不 可 预期 的 后 果 。 


select 消 数 的 中 间 三 个 参数 readset、writeset 和 exceptset 中 ， 如 果 我 
们 对 某 一 个 的 条 件 不 感 兴 趣 ， 束 可 以 把 它 设 为 空 指 针 。 事 实 上 ， 如 果 这 
三 个 指针 均 为 空 ， 我 们 束 有 了 一 个 比 Unix 的 sleep 函 数 更 为 精确 的 定时 
器 〈sleep 睡 眠 以 秒 为 最 小 单位 ) 。pol1 函 数 提供 类 似 的 功能 。APUE 的 
图 C-9 和 图 C-10 给 出 了 一 个 使 用 select 和 pol1 实 现 的 sleep_us 国 数 ， 它 的 
睡眠 以 微 秒 为 单位 。 


maxjap1 参 数 指定 待 测试 的 描述 符 个 数 ， 它 的 值 是 行 测试 的 最 大 描 
述 符 加 1《〈 因 此 我 们 把 该 参数 命名 为 maxjfap1) . fEXBTj0,1,2,... — EH 
到 maxfdp1-1 均 将 被 测试 。 





头 文件 <sys/select.h> 中 定义 的 FD_SETSIZE 和 党 值 是 数据 类 型 fd_set 
中 的 描述 符 总 数 ， 其 值 通常 是 1024， 不 过 很 少 有 程序 用 到 那么 多 的 描述 
符 。maxfdp1 参 数 迫 使 我 们 计算 出 所 关心 的 最 大 摘 述 符 并 告知 内 核 该 
值 。 以 前 面 给 出 的 打开 描述 符 1、4 和 5 的 代码 为 例 ， 其 maxfdp1 值 束 是 
6。 是 6 而 不 是 5 的 原因 在 于 : 我 们 指定 的 是 摘 述 符 的 个 数 而 非 最 大 值 ， 
而 摘 述 符 是 从 0 开始 的 。 
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存在 这 个 参数 以 及 计算 其 值 的 额外 负担 纯粹 是 为 了 效率 原因 。 
个 fd_set 都 有 表示 大 量 描述 符 〈 典 型 数量 为 1024) 的 空间 ， 然 而 一 个 普 
通 进程 所 用 的 数量 却 少 得 多 。 内 核 正 是 通过 在 进程 与 内 核 之 间 不 复制 描 
述 符 集 中 不 必要 的 部 分 ， 从 而 不 测试 总 为 0 的 那些 位 来 提高 效率 的 


(CTCPv2 的 16.13 节 ) 。 


select 函 数 修改 由 指针 readset、writeset 和 exceptset 所 指向 的 描述 符 
集 ， 因 而 这 三 个 参数 都 是 值 一 结果 参数 。 调 用 该 函数 时 ， 我 们 指定 所 关 
心 的 描述 符 的 值 ， 访 函数 返回 时 ， 绪 果 将 指示 哪些 描述 符 已 就 绪 。 该 函 
数 返 回 后 ， 我 们 使 用 FD_ISSET 宏 来 测试 fd_set 数 据 类 型 中 的 描述 符 。 
描述 符 集 内 任何 与 未 就 绪 描 述 符 对 应 的 位 返回 时 均 清 成 0。 为 此 ， 每 次 
ere 我 们 都 得 再 次 把 所 有 摘 述 符 集 内 所 关心 的 位 均 
为 1。 


使 用 select 时 最 常见 的 两 个 编程 错误 是 : 忘 了 对 最 大 描述 符 加 1; 
忘 了 描述 符 集 是 值 -结果 参数 。 第 二 个 错误 导致 调用 select 时 ， 描 述 符 
集 内 我 们 认为 是 1 的 位 却 被 置 为 0。 


该 函数 的 返回 值 表 示 路 所 有 描述 符 集 的 已 就 绪 的 总 位 数 。 如 果 在 任 
何 描述 符 就 绕 之 前 定时 旨 到 时 ， 那 么 返回 0。 返回 -1 表示 出 错 ( 这 是 可 
能 友 生 的 ， 辟 如 本 函数 被 一 个 所 捕获 的 信和 与 中 断 〉。 


SVR4 的 早期 版 本 中 select 的 实现 有 一 个 缺陷 : 如 果 返 回 时 多 个 描 
述 符 集 内 的 同一 位 为 1， 璧 如 说 某 个 描述 符 既 准备 好 读 又 准备 好 写 的 情 
况 ， 那 么 在 函数 返回 值 中 只 计 一 次 。 当 前 的 版 本 修正 了 这 个 缺陷 。 


6.3.4. fib MARTE 


我 们 一 直 在 讨论 等 待 某 个 描述 符 准 备 好 MO 〈 读 或 写 ) 或 是 等 待 其 
上 发 后 一 个 符 处 理 的 异常 条 件 《〈 带 外 数据 ) 。 尽 管 可 读 性 和 可 写 性 对 于 
普通 文件 这 样 的 描述 符 显而易见 ， 然 而 对 于 引起 select 返 回 套 接 字 “就 
绪 ” 的 条 件 我 们 必须 讨论 得 更 明确 些 〈TCPv2 的 图 16-52) 。 


(1) 满足 下 列 四 个 条 件 中 的 任何 一 个 时 ， 一 个 套 接 字 准 备 好 读 。 


a) 该 套 接 字 接收 缓冲 区 中 的 数据 字 节 数 大 于 等 于 套 接 字 接 收 缓冲 区 
低 水 位 标记 的 当前 大 小 。 对 这 样 的 套 接 字 执行 读 操作 不 会 阻塞 并 将 返回 
-个 大 于 0 的 值 〈 也 就 是 返回 准备 好 读 入 的 数据 ) 。 我 们 可 以 使 
用 so_RcvLOowAT 套 接 字 选项 设置 该 套 接 字 的 低 水 位 标记 。 对 于 TCP 和 UDP 
套 接 字 而 言 ， 其 默认 值 为 1。 


b) 该 连接 的 读 半 部 关闭 〈 也 就 是 接收 了 FIN 的 TCP 连 接 ) 。 对 这 样 














的 套 接 字 的 读 操 作 将 不 阻塞 并 返回 0 (也 就 是 返回 EOF)。 
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c) 该 套 接 字 是 一 个 监听 套 接 字 且 已 完成 的 连接 数 不 为 0。 对 这 样 的 
套 接 字 的 accept 通 销 不 会 阻塞 ， 不 过 我 们 将 在 15.6 节 讲解 accept 可 能 阻 
塞 的 一 种 时 序 条 件 。 


d) 其 上 有 一 个 套 接 字 错 误 待 处 理 。 对 这 样 的 套 接 字 的 读 操作 将 不 阻 
塞 并 返回 -1 〈 也 就 是 返回 一 个 错误 ) ， 同 时 把 errno 设 置 成 确切 的 错误 
条 件 。 这 些 待 处 理 错误 (pending error) 也 可 以 通过 指定 so_ERROR 套 接 
字 选 项 调用 getsockopt 获 取 并 清除 。 


(2) 下 列 四 个 条 件 中 的 任何 一 个 满足 时 ， 一 个 套 接 字 准备 好 写 。 


a) 该 套 接 字 发 送 缓冲 区 中 的 可 用 空间 字 节 数 大 于 等 于 套 接 字 发 送 组 
冲 区 低 水 位 标记 的 当前 大 小 ， 并 且 或 者 该 套 接 字 已 连接 ， 或 者 该 套 接 字 
不 需要 连接 (如 UDP 套 接 字 ) 。 这 意味 着 如 果 我 们 把 这 样 的 套 接 字 设置 
成 非 阻塞 (第 16 章 ) ， 写 操作 将 不 阻塞 并 返回 一 个 正 值 (如 由 传输 层 接 
受 的 字 节 数 ) 。 我 们 可 以 使 用 so_sNDLowAT 套 接 字 选 项 来 设置 该 套 接 字 
的 低 水 位 标记 。 对 于 TCP 和 UDP 套 接 字 而 言 ， 其 默认 值 通常 为 2048。 


b) 该 连接 的 写 半 部 关闭 。 对 这 样 的 套 接 字 的 写 操作 将 产生 SIGPIPE 
信号 〈5.12 节 ) 。 


c) 使 用 非 阻塞 式 connect 的 套 接 字 已 建立 连接 ， 或 者 connect 已 经 以 
失败 告终 。 


d) 其 上 有 一 个 套 接 字 错误 待 处 理 。 对 这 样 的 套 接 字 的 写 操作 将 不 阻 
塞 并 返回 -1 〈 也 就 是 返回 一 个 错误 ) ， 同 时 把 errno 设 置 成 确切 的 错误 
和 条件。 这些 待 处 理 的 错误 也 可 以 通过 指定 So_ERROR 套 接 字 选项 调 
用 getsockopt 获 取 并 清除 。 


(3) 如 果 一 个 套 接 字 存在 带 外 数据 或 者 仍 处 于 带 外 标记 ， 那 么 它 有 
异常 条 件 竺 处理。 《我 们 将 在 第 24 章 中 讲述 珊 外 数据 。) 


我 们 对 “可 读 性 ?和 * 可 写 性 ”的 定义 直接 取 自 TCPv2 第 530 一 531 页 中 
内 核 的 soreadable 和 sowriteable 宏 。 与 此 类 似 ， 我 们 对 套 接 字 “ 寞 常 条 




















件 ” 的 定义 取 目 同一 页 中 的 soo_select 函 数 。 


注意 : 当 某 个 套 接 字 上 发 生 错 误 时 ， 它 将 由 select 标 记 为 既 可 读 又 
可 写 。 


接收 低 水 位 标记 和 人 发送 低 水 位 标记 的 目的 在 于 : 允许 应 用 进程 控制 
在 select 返 回 可 读 或 可 写 条 件 之 前 有 多 少数 据 可 读 或 有 多 大 空间 可 用 于 
写 。 举 例 来 说 ， 如 果 我 们 知 着 除非 至 少 存 在 64 个 字 节 的 数据 ， 人 否则 我 们 
的 应 用 进程 没有 任何 有 效 工作 可 做 ， 那 么 可 以 把 接收 低 水 位 标记 设置 为 
64， 以 防 少 于 64 个 字 市 的 数据 准备 好 读 时 select 唤 醒 我 们 。 


任何 UDP 和 套 接 字 只 要 其 发 送 低 水 位 标记 小 于 等 于 发 送 缓冲 区 大 小 
人 
连接 。 
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图 6-7 汇 总 了 上 述 导 致 select 返 回 某 个 套 接 字 就 绪 的 条 件 。 


有 数据 可 该 

关 财 连接 的 或 一 半 

有 可 用 于 写 的 空间 

RAMEN GF 
| * [| | 
[ T —1 


"aps VS 
TG Pa 5 P X. Hi 








图 6-7 ”select 返 回 某 个 套 接 字 就 绪 的 条 件 小 结 
6.3.2 select 的 最 大 描述 从 数 


早 些 时 候 我 们 说 过 ， 大 多 数 应 用 程序 不 会 用 到 许多 摘 述 符 。 壁 如 说 
我 们 很 少 能 找到 一 个 使 用 几 百 个 描述 符 的 应 用 程序 。 然 而 使 用 那么 多 描 
述 符 的 应 用 程序 确实 存在 ， 它 们 往往 使 用 select 来 复 选 描述 符 。 最 初 设 
计 select 时 ， 操 作 系 统 通 常 对 每 个 进程 可 用 的 最 大 插 述 符 数 设置 了 上 限 
(4.2BSD 的 限制 为 31) ，select 就 使 用 相同 的 限制 值 。 然 而 当今 的 Unix 














版 本 允许 每 个 进程 使 用 事实 上 无 限 数 目的 描述 符 〈 往 往 仅 受 限 于 和 内存 总 
量 和 管理 性 限制 ) ， 因 此 我 们 的 问题 是 :这 对 select 有 什么 影响 ? 


"s 实现 有 类 似 于 下 面 的 声明 ， 它 取 目 4.4BSD 的 <sys/types .h> 头 
SEHE 


y* 

* select uses bitmasks of file descriptors in longs. These macros 

* manipulate such bit fields (the filesystem macros use chars). 

* FD SETSIZE may be defined by the user, but the default here should 
* be enough for most uses. 





#ifndef FD SETSIZE 
define FD SETSIZE 256 
#endif 


这 使 我 们 想到 ， 可 以 在 包括 该 头 文 件 之 前 把 FD_SETSTZE 定 义 为 某 个 
下 
不 通 。 


为 了 和 弄 清 楚 到 底 出 了 什么 差错 ， 请 注意 TCPv2 的 图 16-53 声 明了 3 个 
在 内 核 中 的 描述 符 集 ， 并 把 内 核 的 Fp_sETSIZE 定 义 作为 上 限 使 用 。 因 此 
增 大 描述 符 集 大 小 的 唯一 方法 是 先 增 大 FD_sETSIZE 的 值 ， 再 重新 编译 内 
核 。 不 重新 编译 内 核 而 改变 其 值 是 不 够 的 。 


有 些 厂 家 正在 将 select 的 实现 修改 为 允许 进程 将 FDp_sETSIZE 定 义 为 
比 默认 值 更 大 的 某 个 值 。BSD/OS 已 改变 了 内 核实 现 以 允许 更 大 的 描述 
符 集 ， 并 定义 了 四 个 新 的 FD_xxx 宏 用 于 动态 分 配 并 操纵 这 样 的 描述 符 
集 。 然 而 从 可 移植 性 考虑 ， 使 用 大 描述 符 集 需 要 小 心 。 
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6.4 str clirK2X CÁEY] hk) 


S dEd 18] EAS HI selecti 55.57 rnüstr clip AX f REARS 
AHERER—£&IE, RPS EBA. APSARA EF: 4 
套 接 字 上 发 生 某 些 事件 时 ， 客 户 可 能 阻塞 于 fgets 调 用 。 新 版 本 改 为 阻 
塞 于 select 调 用 ， 或 是 等 竺 标准 输入 可 读 ， 或 是 等 待 套 接 字 可 读 。 图 6- 
8 展示 了 调用 select 所 处 理 的 各 种 条 件 。 





客户 





在 标准 输入 或 雁 接 字 
select Hie? 


数据 或 EOF ——»- 慰 准 输入 


TCP 





RST 数据 FIN 
图 6-8 str_cli 函 数 中 由 select 处 理 的 各 种 条 件 
































客户 的 套 接 字 上 的 三 个 条 件 处 理 如 下 。 


(1) 如 末 对 疹 TCP 及 送 数据 ， 那 么 该 父 接 字 变 为 可 读 ， 并 且 read 返 回 
-个 大 于 0 的 值 “ 即 读 入 数据 的 字 节 数 ) 。 


(2) 如 果 对 端 TCP 发 送 一 个 FIN 〈 对 端 进程 终止 ) ， 那 么 该 套 接 字 变 
为 可 读 ， 并 且 read 返 回 0 (EOF) 。 








(3) 如 果 对 端 TCP 发 送 一 个 RST〈 对 端 主机 骨 溃 并 重新 启动 ) ， 那 么 
该 套 接 字 变 为 可 读 ， 并 且 read 返 回 -1， 而 errno 中 含有 确切 的 错误 码 。 


图 6-9 给 出 了 这 个 新 版 本 的 源 代码 。 





selectisircliselectül.c 





Banc Lude "urip.hi" 


void 
str cli‘ FILE sftp int socxtd) 


int naxfda ; 
fd set rset; 
char eendline MAMLINE], recv.ine|MAXLINE]; 


oO TG TO PWDN P 
~~ 


TD 2BRO[Srset); 








S for i: ;) ( 
10 BD SxT(fileno!?o;, srset); 
11 FD £zT(oocktd, Sroct) ; 
12 waxfdpl - maxizilsenc!fp), sockfd) + 1, 
13 Select (max^dpl. rsat, NIP, NIT, NOLE); 
14 if (FD ISSET(sockfd, arsez)) [ /* socket is readable */ 
15 if (Readlins(sockEd, recvline, MAXLINE) «== 0) 
16 err_quit("str_cli: server terminated premacuczely"): 
17 Bputsirecvline, stdou-): 
Ls } 
19 it ‘FD ISSET(filcro(tp), arsct)) : /* input is rcacabic */ 
20 if 'Pgetsissend ine, MAXLINE. fp! w= NULL) 
21 re urn; J* all dom 4/ 
22 writen(seckfd, sendline, strlen(serdl:ne)); 
23 } 
24 } 
25 ) 
select'sindiselectüla 
图 6-9 ”使 用 select 的 str_cli 函 数 的 实现 (在 图 6-13 中 改进 ) 
调用 select 


8-13 ”我 们 只 需要 一 个 用 于 检查 可 读 性 的 描述 符 集 。 该 集合 
由 FD_ZERO 初 始 化 ， 并 用 FDp_sET 打 开 两 位 : 一 位 对 应 于 标准 IO 文件 指针 
fp， 一 位 对 应 于 套 接 字 sockfd。fileno 函 数 把 标准 IO 文件 指针 转换 为 对 
应 的 描述 符 。select 〈 和 pol1) 只 工作 在 描述 符 上 。 


计算 出 两 个 描述 符 中 的 较 大 值 后 ， 调 用 select。 在 该 调用 中 ， 写 集 
合 指针 和 腊 帝 集合 指针 者 是 空 指针 。 最 后 一 个 参数 《时 间 限 制 ) 也 是 空 
指针 ， 因 为 我 们 希望 本 调用 阻塞 到 茶 个 描述 符 就 绪 为 止 。 











处 理 可 该 套 接 字 


14-18 ”如 果 在 select 返 回 时 套 接 字 是 可 读 的 ， 那 束 先 用 readline 读 
入 回 射 文本 行 ， 再 用 fputs 输 出 它 。 


处 理 可 读 输入 


19-23 ”如 果 标 准 输入 可 读 ， 那 就 先 用 fgets 读 入 一 行文 本 ， 再 
用 writen 把 它 写 到 套 接 字 中 。 
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请 注意 ， 这 个 版 本 使 用 了 与 5.5 节 的 版 本 相同 的 四 个 1/O 函 
数 : fgets、writen、readline 和 fputs， 不 过 它们 在 本 函数 中 的 驱动 流 
发 生 了 变化 。 新 的 版 本 是 由 select 调 用 来 驱动 的 ， 而 旧 的 版 本 则 是 
由 fgets 调 用 来 驱动 的 。 与 图 5-5 相 比 ， 图 6-9 中 的 代码 仅 增 加 了 几 行 ， 就 
大 大 提高 了 客户 程序 的 健壮 性 。 





6.5 ”批量 输入 


不 广 的 是 ， 我 们 的 str_cli 函 数 仍然 不 正确 。 首 先 让 我 们 回 到 其 最 
初版 本 ， 即 图 5-5。 它 以 停 一 等 方式 工作 ， 这 对 交互 式 使 用 是 合适 的 : 
发 送 一 行文 本 给 服务 器 ， 然 后 等 竺 应答。 这 段 时 间 是 往返 时 间 Cround- 
tip time, RTT) 加 上 服务 器 的 处 理 时 间 《〈 对 于 简单 的 回 射 服务 器 而 
言 ， 处 理 时 间 几 乎 为 0) 。 如 果 知 道 了 客户 与 服务 器 之 间 的 RTIT， 我 们 
便 可 以 估计 出 回 射 固 定数 目的 行 需 花 多 长 时 间 。 


ping 程 序 是 测量 RTT 的 一 个 简单 方法 。 我 们 曾经 从 自己 的 主 
机 solaris 往 主机 connix.com 执 行 ping 命 令 ， 得 到 30 次 测量 的 平均 RTT 值 
73175 ms。TCPv1 第 89 页 说 明 ， 这 些 ping 测 量 所 用 的 是 长 度 为 84 字 节 的 
IP 数 据 报 。 如 果 提 取 Solaris 上 termcap 文 件 的 前 2000 行 ， 那 么 所 得 文件 大 
小 为 98349 个 字 节 ， 平 均 每 行 49 个 字 节 。 再 加 上 TIP 首 部 〈20 个 字 节 ) 和 
TCP 首 部 〈20 个 字 节 ) 的 大 小 ， 那 么 每 行 对 应 的 分 组 大 小 约 为 89 个 字 
节 ， 基 本 与 ping 分 组 的 大 小 一 致 。 这 么 一 来 ， 我 们 可 以 估算 出 所 有 2000 
行文 本 的 客户 处 理 时 间 大 约 为 350 秒 (2000x0.175 秒 ) 。 如 果 运 行 第 5 章 
jn ee 得 到 的 真实 时 间 大 约 为 354 秒 ， 与 我 们 的 估计 
常 接 近 。 


如 果 我 们 把 客户 与 服务 器 之 间 的 网 络 作为 全 双 工 管道 来 考虑 ， 请 求 
古 从 客户 回 服 务 需 发 送 ， 应 答 从 服务 器 问 客 户 发 送 ， 那 么 图 6-10 展 示 了 
这 样 的 停 一 等 方式 。 
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图 6-10” 停 一 等 方式 的 时 间 线 ， 交互 式 输入 


客户 在 时 刻 0 发 出 请 求 ， 我 们 假设 RTT 为 8 个 时 间 单 位 。 其 应 答 在 时 
刻 4 发 出 并 在 时 刻 7 接 收 到 。 我 们 还 假设 没有 服务 器 处 理 时 间 而 且 请 求 大 


小 与 应 答 大 小 相同 。 图 6-10 仅 仅 展 示 了 客户 与 服务 器 之 间 的 数据 分 组 ， 
而 忽略 了 同样 穿越 网 络 的 TCP 确 认 。 


既然 一 个 分 组 从 管道 的 一 端 发 出 到 到 达 管 道 的 男 一 端 存 在 延迟， 而 
管道 是 全 双 工 的 ， 束 本 例子 而 言 ， 我 们 仪 仪 使 用 了 管道 容量 的 /8。 这 
种 停 一 等 方式 对 于 交互 式 输入 是 合适 的 ， 然 而 由 于 我 们 的 客户 是 从 标准 
输入 读 并 往 标准 输出 写 ， 在 Unix 的 shell 环 境 下 重 定向 标准 输入 和 标准 输 
出 又 是 轻而易举 之 事 ， 我 们 可 以 很 容易 地 以 批量 方式 运行 客户 。 当 我 们 
把 标准 输入 和 标准 输出 重 定向 到 文件 来 运行 新 的 客户 程序 时 ， 却 友 现 输 
出 文件 总 是 小 于 输入 文件 《“ 而 对 于 回 射 服务 器 而 言 ， 它 们 理应 相等 ) 。 
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为 了 搞 清 楚 到 底 发 生 了 什么 ， 我 们 应 该 意识 到 在 批量 方式 下 ， 客 户 
能 够 以 网 络 可 以 接受 的 最 快速 度 持续 发 送 请 求 ， 服 务 右 以 相同 的 速度 处 
理 它 们 并 发 回应 答 。 这 就 导致 时 刻 7 时 管道 充满 ， 如 图 6-11 所 示 。 


时 刻 7: 




















时 刻 8: 





图 6-11 填充 客户 与 服务 器 之 间 的 管道 : 批量 方式 





这 里 我 们 假设 发 出 第 一 个 请 求 后 ， 立 即 发 出 下 一 个 ， 紧 接着 再 下 一 
个 。 我 们 还 假设 客户 能 够 以 网 络 可 以 接受 它们 的 最 快速 度 持续 发 送 请 
求 ， 并 且 能 够 以 网 络 可 提供 给 它们 的 最 快速 度 处 理应 答 。 


这 里 我 们 忽略 了 涉及 TCP 批 量 数据 流 的 许多 微妙 问题 ， 例 如 限制 数 
据 在 一 个 全 新 的 或 空闲 的 连接 上 的 发 送 速率 的 慢 启 动 算 法 ， 以 及 返回 的 
ACK。 这 些 都 在 TCPv1 的 第 20 章 中 讨论 。 








为 了 搞 清 楚 图 6-9 中 的 str_cli 函 数 存 在 的 问题 ， 我 们 假设 输入 文件 
只 有 9 行 。 最 后 一 行 在 时 刻 8 发 出 ， 如 图 6-11 所 示 。 写 完 这 个 请 求 后， 我 
们 并 不 能 立即 关闭 连接 ， 因 为 管道 中 还 有 其 他 的 请 求 和 应 答 。 问 题 的 起 
因 在 于 我 们 对 标准 输入 中 的 EOF 的 处 理 : str_cli 函 数 就 此 返回 到 main 据 
数 ， 而 main 函 数 随后 终止 。 然 而 在 批量 方式 下 ， 标 准 输入 中 的 EOF 并 不 
意味 着 我 们 同时 也 完成 了 从 套 接 字 的 读 入 ; 可 能 仍 有 请 求 在 去 往 服 务 器 
的 路 上 ， 或 者 仍 有 应 答 在 返回 客户 的 路 上 。 


我 们 需要 的 是 一 种 关闭 TCP 连 接 其 中 一 半 的 方法 。 也 就 是 说 ， 我 们 
想 给 服务 器 发 送 一 个 FIN， 告 诉 它 我 们 已 经 完成 了 数据 发 送 ， 但 是 仍然 
保持 套 接 守 描述 等 打 开 以 便 读 取 。 这 出 将 在 下 一 闻 济 述 的 snutsown 玫 
来 完成 。 


一 般 地 说 ， 为 提升 性 能 而 引入 缓冲 机 制 增加 了 网 络 应 用 程序 的 复杂 
性 ， 图 6-9 所 示 的 代码 就 遭受 这 种 复杂 性 之 害 。 考 虑 有 多 个 来 自 标 准 输 
入 的 文本 输入 行 可 用 的 情况 。select 将 使 第 20 行 代码 用 fgets 读 取 输 
入 ， 这 又 转 而 使 已 可 用 的 文本 输入 行 被 读 入 到 stdio 所 用 的 缓冲 区 中 。 然 
而 fgets 只 返回 其 中 第 一 行 ， 其 余 输 入 行 仍 在 stdio 绥 冲 区 中 。 第 22 行 代 
码 把 fgets 返 回 的 单个 输入 行 写 给 服务 器 ， 随 后 select 再 次 被 调用 以 等 
竺 新 的 工作 ， 而 不 管 stdio 绥 冲 区 中 还 有 额外 的 输入 行 待 消费 。 究 其 原因 
在 于 select 不 知道 stdio 使 用 了 缓冲 区 它 只 是 从 read 系 统 调用 的 角度 
指出 是 否 有 数据 可 读 ， 而 不 是 从 fgets 之 类 调用 的 角度 考虑 。 基 于 上 述 
人 在 这 样 做 时 
必须 极其 小 心 。 
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同样 的 问题 存在 于 图 6-9 的 readline 调 用 中 。 这 回 select 不 可 见 的 数 
据 不 是 隐藏 在 stdio 绥 种 区 中 ， 而 是 隐藏 在 readline 目 己 的 绥 冲 区 中 。 回 
顾 3.9 节 我 们 提供 的 一 个 可 以 看 到 readline 绥 冲 区 的 函数 ， 因 此 可 能 的 解 
决 办 法 之 一 是 修改 我 们 的 代码 ， 在 调用 select 之 前 使 用 那个 函数 ， 以 查 
看 是 否 存在 已 经 读 入 而 尚未 消费 的 数据 。 然 而 为 了 人 处理 readline 绥 冲 区 
中 既 可 能 有 不 完整 的 输入 行 (意味 着 我 们 需要 继续 读 入 ) ， 也 可 能 有 一 
个 或 多 个 完整 的 输入 行 〈 这 些 行 我 们 可 以 直接 消费 ) 这 两 种 情况 而 引入 
的 复杂 性 会 迅速 增长 到 难以 控制 的 地 步 。 


我 们 将 在 6.7 市 给 出 的 str_cli 改 进 后 版 本 中 解决 这 些 缓冲 区 问题 。 











6.6 


shutdown PKI ZA 


终止 网 络 连接 的 通常 方法 是 调用 close 国 数 。 不 过 close 有 两 个 限 
制 ， 却 可 以 使 用 snutdown 来 避免 。 


(1) close 把 描述 符 的 引用 


计数 减 1， 仅 在 该 计数 变 为 O 时 才 关 闭 套 接 
字 。 我 们 已 在 4.8 市 讨论 过 这 一 点 。 使 用 shutdown 可 以 不 管 引用 计数 束 激 


发 TCP 的 正常 连接 终止 序列 (图 2-5 中 由 FIN 开 始 的 4 个 分 节 ) 。 


(2) close 终 止 读 和 写 两 个 方 癌 的 数据 传送 。 既 然 TCP 连 接 是 全 双 工 
知 对 闯 我 们 已 经 完成 了 数据 有 发送， 即使 对 端 仍 有 


Be FE 
需要 告 


的 ， 有 了 时候 我 们 


数据 要 友 送 给 我 们 。 这 束 是 我 们 在 前 一 节 中 过 到 的 str_cli 函 数 在 批量 
输入 时 的 情况 。 图 6-12 展 示 了 这 样 的 情况 下 典型 的 函数 调用 。 








客户 服务 器 
write Att 
write readjl [i] X370 
shutdown .—. FN readijli RO 
NU s read ln]0 
gau RIN, — — 

xri write 

read [n] ATO write 

readikM X T0 FIN 一 一 close 





readiM [lo ne 一 一 HEREIN REA, 


| 
图 6-12 US 





#include <sys/socket.h> 


— 


日 shutdown 关 闭 一 半 TCP 连 接 
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int shutdown(int sockfd, int howto); 





H 





: 若 成 功 则 为 0， 若 出 错 则 为 -1 








Es 





该 函数 的 行为 依赖 于 howto 参 数 的 值 。 


SHUT_RD ”关闭 连接 的 读 这 一 半 一 一 套 接 字 中 不 再 有 数据 可 接收 ， 
而 且 套 接 字 接收 缓冲 区 中 的 现 有 数据 者 被 丢弃 。 进 程 不 能 再 对 这 样 的 万 
接 字 调用 任何 读 函 数 。 对 一 个 TICP 套 接 字 这 样 调用 snutdown 函 数 后 ， 由 
该 套 接 字 接收 的 来 自 对 端的 任何 数据 都 被 确认 ， 然 后 悄然 丢 奔 。 


默认 情形 下 ， 写 入 一 个 路 由 套 接 字 【〈 第 18 章 ) 中 的 所 有 数据 都 被 作 
为 同一 个 主机 上 所 有 路 由 套 接 字 的 可 能 输入 环 回 。 有 些 程序 把 第 二 个 参 
数 指定 为 SHUT_RD 来 调用 shutdown PÁ Ži 以 防止 环 回复 制 。 防 止 环 回 复制 的 
另 一 种 方法 是 关闭 so_UsELooPBACK 套 接 字 选 项 。 


SHUT WR ”关闭 连接 的 写 这 一 半 一 一 对 于 TCP 套 接 字 ， 这 称 为 半 关 
闭 (half-close， 见 TCPv1 的 18.5 节 ) 。 当 前 留 在 套 接 字 发 送 缓冲 区 中 的 
数据 将 被 发 送 掉 ， 后 跟 TCP 的 正常 连接 终止 序列 。 我 们 已 经 说 过 ， 不 管 
套 接 字 描 述 符 的 引用 计数 是 否 等 于 0， 这 样 的 写 半 部 关闭 照样 执行 。 进 
程 不 能 再 对 这 样 的 套 接 字 调 用 任何 写 函 数 。 


SHUT RDWR ”连接 的 读 半 部 和 写 半 部 都 关闭 这 与 调用 shutdown 两 
次 等 效 : 第 一 次 调用 指定 SHUT_RD， 第 二 次 调用 指定 SHUT_WR。 


图 7-12 将 汇总 进程 调用 shutdown 或 close 的 各 种 可 能 。close 的 操作 
取决 于 so_LINGER 套 接 字 选项 的 值 。 


这 三 个 SHUT_xxx 名 字 由 POSIX 规 范 定义 。howto 参 数 的 典型 值 将 会 是 
0( 关 闭 读 半 部 ) 、1 (关闭 写 半 部 ) 和 2 ( 读 半 部 和 写 半 部 都 关闭 )。 

















6.7 


str_clirhi@ (EIB he) 


图 6-13 给 出 str_cli 函 数 的 改进 〈 且 正确 ) 版 本 。 它 使 用 了 select 和 
shutdown， 其 中 前 者 只 要 服务 器 关闭 它 那 一 端的 连接 就 会 通知 我 们 ， 后 
者 允许 我 们 正确 地 处 理 批量 输入 。 这 个 版 本 还 废弃 了 以 文本 行为 中 心 的 
代码 ， 改 而 针对 缓冲 区 操作 ， 从 而 消除 了 6.5 市 中 提出 的 复杂 性 问题 。 
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electiircliselectüz.c 





Perr e 
be ow 


ere 
nar kh 


re 
€ -l 


Ory AM SW e 
~ 


Hiuclude 


void 


int 
fa oct 
char 


int 


* urip. hi" 


str Cli!FILB *fp. irt socxfd) 


naxfdpl. stdinsof; 
roet; 

buf [MAXLINE'; 

n; 


stdineof - 0; 
Fn ZERO(&rset); 


for |: 


it 


六 


,stdineof == 0) 


FD _SET(filenoifp', &rset); 


FD S*^7(suxkfd, Ersel); 
maxfüpl ~ maxizileno(tp), sockfd) + 1; 
Zelect(maxfdpl, &rsst, NULL, NULL, NULL); 


if 


if 


‘FD_ISSET(sockfd, &rze-)) ( /* socket is readable */ 


if | in = Read(cockfd, buf, MAMLINE)) == 0) [ 
if ‘stdineof == 1) 
rerurn: /* normal termination */ 
alse 
err_quit("str_cl:: server terminated prematurely"): 


} 


Arita'/fileno(st2out), buf, n): 


;FD ISSET(fileno(fr), &rsec)) i /* input is reacabls */ 


it | in = Read[tilero(fp), but, MAMLINZ)) == 0) | 
stdineof - 1; 
Shutdown (skf, SHITT WR): /* sel FIN 4/ 
FD CuP(flleno(fp), &rse-): 
continue; 


} 


ariten(eockfd, buf, n); 


elpctisirrlisslectiz a 




















图 6-13 ”使 用 select 正 确 处 理 EoF 的 str_c1Li 函 数 





1 


5-8 stdineof 是 一 个 初始 化 为 0 的 新 标志 。 只 要 该 标志 为 0， 每 次 
在 主 循环 中 我 们 总 是 select 标 准 输入 的 可 该 性。 


17-25 ” 当 我 们 在 套 接 字 上 读 到 EOF 时 ， 如 果 我 们 已 在 标准 输入 上 
过 到 EOF， 那 就 是 正常 的 终止 ， 于 是 函数 返回 ; 但 是 如 果 我 们 在 标准 输 
入 上 没有 过 到 EOF， 那 么 服务 占 进 程 已 过 早 终止 。 我 们 改 用 read 和 
write 对 绥 冲 区 而 不 是 文本 行进 行 操作 ， 使 得 select 能 够 如 期 地 工作 。 
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26-34 ” 当 我 们 在 标准 输入 上 碰 到 EOF 时 ， 我 们 把 新 标志 stdineof 置 
为 1， 并 把 第 二 个 参数 指定 为 SHUT_wR 来 调用 shutdown 以 发 送 FIN。 这 儿 
我 们 也 改 用 read 和 write 对 绥 冲 区 而 不 是 文本 行进 行 操 作 。 


我 们 对 str_cli 函 数 的 讨论 还 没有 结束 。16.2 市 中 我 们 将 开发 一 个 使 
用 非 阻 窗 式 WO 模 型 的 版 本 ，26.3 节 中 我 们 将 开发 一 个 使 用 线程 的 版 本 。 


68 TCPH Wika aster Bh) 


我 们 可 以 回顾 5.2 节 和 5.3 节 中 讲解 的 TCP 回 射 服务 器 程序 ， 把 它 重 
写成 使 用 select 来 处 理 任 意 个 客户 的 单 进程 程序 ， 而 不 是 为 每 个 客户 派 
生 一 个 子 进程 。 在 给 出 具体 代码 之 前 ， 让 我 们 先 查 看 用 以 跟踪 客户 的 数 





据 结 构 。 图 6-14 给 出 了 第 一 个 客户 建立 连接 前 服务 占 的 状态 。 


WA a 











图 6-14 第 一 个 客户 建立 连接 前 的 服务 器 状态 
服务 器 有 单个 监听 描述 符 ， 我 们 用 一 个 圆 点 来 表示 。 


服务 器 只 维护 一 个 读 描 述 符 集 ， 如 图 6-15 所 示 。 假 设 服务 器 是 在 前 
台 局 动 的， 那么 描述 符 0、1 和 2 将 分 别 被 设置 为 标准 输入 、 标 准 输出 和 
标准 错误 输出 。 可 见 监听 套 接 字 的 第 一 个 可 用 描述 符 是 3。 图 6-15 还 展 
示 了 一 个 名 为 client 的 整 型 数组 ， 它 含有 每 个 客户 的 已 连接 套 接 字 描 述 
符 。 该 数组 的 所 有 元 素 都 被 初始 化 为 -1。 











client []: 


reet:| 0 | 0 | ü : 1 
EE TERES HAN 





Kle-15 ” 仅 有 一 个 监听 套 接 字 的 TCP 服 务 器 的 数据 结构 
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描述 符 集 中 唯一 的 非 0 项 是 表示 监听 套 接 字 的 项 ， 因 此 select 的 第 
一 个 参数 将 为 4。 
当 第 一 个 客户 与 服务 器 建立 连接 时 ， 监 听 描 述 符 变 为 可 读 ， 我 们 的 
服务 器 于 是 调用 accept。 在 本 例 的 假设 下 ， 由 accept 返 回 的 新 的 已 连接 
描述 符 将 是 4。 图 6-16 展 示 了 从 客户 到 服务 器 的 连接 。 


WA A 











图 6-16 第 一 个 客户 建立 连接 后 的 TCP 服 务 器 





从 现在 起 ， 我 们 的 服务 占 必 须 在 其 client 数 组 中 记 住 每 个 新 的 已 连 
接 描述 符 ， 并 把 它 加 到 描述 符 集 中 去 。 图 6-17 展 示 了 这 样 更 新 后 的 数据 


结构 。 


c.-lent[!: 


1 
| | nixfd*i-5  " 
| 
1 





[FD SETSIZE-1] " 
图 6-17 第 一 个 客户 连接 建立 后 的 数据 结构 
稍 后 ， 第 二 个 客户 与 服务 器 建立 连接 ， 图 6-18 展 示 了 这 种 情形 。 


AR d 















mx 


IRE 
T 
bo 





性 于 
SSSA 
SSA 


— ACH 
| 


e ux 
c 














图 6-18 ”第 二 个 客户 建立 连接 后 的 TCP 服 务 器 


新 的 已 连接 描述 符 《〈 假 设 是 5) 必须 被 记 住 ， 从 而 给 出 如 图 6-19 所 
示 的 数据 结构 。 
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client [:: 


| maxfd+1=6 | 





[FD SECSIZE-1] 
图 6-19 ”第 二 个 客户 连接 建立 后 的 数据 结构 
我 们 接着 假设 第 一 个 客户 终止 它 的 连接 。 该 客户 的 TCP 发 送 一 个 





FIN， 使 得 服务 器 中 的 摘 述 符 4 变 为 可 读 。 当 服务 右 读 这 个 已 连接 套 接 字 
时 ，read 将 返回 0。 我 们 于 是 关闭 该 套 接 字 并 相应 地 更 新 数据 结构 : 把 
client[9] 的 值 置 为 -1， 把 擅 述 符 集 中 描述 符 4 的 位 设置 为 0， 如 图 6-20 所 
示 。 注 意 ，maxfd 的 值 没有 改变 。 








client[] : » 
[a] 1 rset ` C ] 
[1] 5 
m a E "maxfd «1-6 -| 
IFD SETS-ZE-1] -1 


图 6-20 第 一 个 客户 终止 连接 后 的 数据 结构 


总 之 ， 当 有 客户 到 达 时 ， 我 们 在 client 数 组 中 的 第 一 个 可 用 项 〈 即 
值 为 -1 的 第 一 个 项 ) 中 记录 其 已 连接 套 接 字 的 描述 符 。 我 们 还 必须 把 这 
个 已 连接 描述 符 加 到 读 描述 符 集中 。 变 量 maxi 是 client 数 组 当前 使 用 项 
的 最 大 下 标 ， 而 变量 maxfd〈 加 1 之 后 ) 是 select 图 数 第 一 个 参数 的 当前 
值 。 对 于 本 服务 器 所 能 处 理 的 最 大 客户 数目 的 限制 是 以 下 两 个 值 中 的 较 
小 者 : FD_SsETSIZE 和 内 核 允许 本 进程 打开 的 最 大 描述 符 数 〈 我 们 在 6.3 节 
结尾 处 讨论 过 它 ) 。 
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图 6-21 给 出 了 这 个 版 本 服务 器 程序 的 前 半 部 分 。 





Icpeliservitzpservseleotül.c 


1 #include "up. ti’ 

2 int 

i main(int argc, char **arqv) 

4 1 

5 int i. maxi, maxfd. listerfd, connfd, sockfd; 
€ int nready, clíent[FD SETSIZE) ; 

7 2522C t n; 

& Íd sez raet, allset; 

E] char buf [VAXLIME]:; 

Lu sccklen t clilen; 

t struct sockacdr in cliaddr, servaddr; 

12 listenfd = SocketíAF INET, SOCK SIREAM, 0!; 

13 bzero(&wervacdr, sizeof(servaddri); 

14 eervaddr.cin fzmi.y - AF INET; 

15 servaddrz.asin addr.s addr = htonl [IMSDDR_ANY) ; 

16 servaddr.sin port = atans (SERV FORT); 

17 Bind/listentc, (SA +) &servaddr, sizeof (servedér)); 
15 Listen!listerfd, LISTENQ!; 

19 maxfd = listenfd; /* initialize */ 

20 maxi = -1; tr index into client [] array */ 
a. fcr ii - 0; i < BD _SETSIZE; i++) 

z2 client[i] - -1; /* -TI indicates available entry */ 
23 F2 gD3O(&allset:; 

24 F2 SET!listerfd, &allset); 





tcpeliservitopservsetectül.c 





图 6-21 使 用 单 进 程 和 select 的 TCP 服 务 器 程序 : 初始 化 
创建 监听 套 接 字 并 为 调用 select 进 行 初 始 化 
12-24 创建 监听 套 接 字 的 步骤 与 早先 版 本 一 样 : socket、bind 和 
listen。 我 们 按照 一 开始 select 的 唯一 描述 符 是 监听 描述 符 这 一 前 提 初 
始 化 我 们 的 数据 结构 。 
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main 函 数 的 后 半 部 分 示 于 图 6-22 中 。 


25 for 


阻塞 于 select 


tcpeliservitepservselectól.c 
bx zd 
rset - allset; /* Structure assignment */ 
nrsady = Select (mextdrl, &roet, NULL, NULL, NULL); 


if (FD_ISSET(listenfd, srset)! | /* mew client connection */ 
Tilen = sizenf(claddr!; 
connfd = Accept(listenfd, (SA *) acliaddr, &clilen]; 


for (i = 0; i < FO EEISIZZ; i++) 
if ‘clientlil < 0) { 
client. [il = connfd; /* save descriptor */ 
break; 
} 
if (i == FD SBTSIZE) 
err quir.('t»o many clients"); 


FD SzT(connfd, sallsez); /* add new descriptor to sat */ 
if (connid > maxfd) 

maxfd = connzd; /* for select */ 
if (i > mexi! 


maxi = i: /* max index in client[] array */ 
if | nready <= 0) 
Dont inure; /* no more readable descriptors */ 


for (i - O; i <- maxi; i++) ( /™ checx all clients for data */ 
if | (oockfd - client[i]) < 6} 
oont inue; 
if [FD ISSET(so-kfd, &rset)i 
if | in = kead(eockfd, buf, MAXLINH]) == 0} | 
/*connection closed sy client */ 
Close suck£! ; 
sD CLR(sO-kfd, sallset); 
client[i] = -1:; 
} else 
Writen(sockfd, kuf, ni; 


if |--nready <= 0) 
break; /* no more readable descriptors */ 


Icpclserv/topservsetectól.c 


图 6-22 ”使 用 单 进程 和 select 的 TCP 服 务 器 程序 : 循环 








26-27 ”select 等 待 某 个 事件 发 生 : 或 是 新 客户 连接 的 建立 ， 或 是 
数据 、FIN 或 RST 的 到 达 。 
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accept jj, 的 连接 





28-45 ”如果 监听 套 接 字 变 为 可 读 ， 那 么 已 建立 了 一 个 新 的 连接 。 
我 们 调用 accept 并 相应 地 更 新 数据 结构 ， 使 用 client 数 组 中 的 第 一 个 未 
用 项 记录 这 个 已 连接 描述 符 。 束 绪 揪 述 符 数目 减 1， 奎 其 值 变 为 0， 束 可 
以 避免 进入 下 一 个 for 循 环 。 这 样 做 让 我 们 可 以 使 用 select 的 返回 值 来 
避免 检查 未 就 绪 的 描述 符 。 


检查 现 有 连接 


46-60 ”对 于 每 个 现 有 的 客户 连接 ， 我 们 要 测试 其 描述 符 是 否 
在 select 返 回 的 描述 符 集 中 。 如 条 是 就 从 该 客户 读 入 一 行文 本 并 回 射 给 
人 
2 据 结 ^J o 


我 们 从 不 减少 maxi 的 值 ， 不 过 每 次 有 客户 关闭 其 连接 时 ， 我 们 可 以 
检查 是 否 存在 这 样 的 可 能 性 。 


本 服务 器 程序 版 本 比 图 5-2 和 图 5-3 所 示 的 版 本 复杂 ， 不 过 它 避 免 了 
为 每 个 客户 创建 一 个 新 进程 的 所 有 开销 ， 因 而 是 一 个 使 用 select 的 精彩 
例子 。 尽 管 如 此 ， 我 们 仍 将 在 16.6 节 讲解 本 服务 器 程序 存在 的 一 个 问 
题 ， 不 过 通过 将 监听 套 接 字 设置 成 非 阻 塞 ， 然 后 检查 并 忽略 来 自 accept 
的 若干 错误 可 以 很 容易 地 解决 该 问题 。 


拒绝 服务 型 攻击 


不 幸 的 是 ， 我 们 刚刚 给 出 的 服务 器 程序 存在 一 个 问题 。 考 虑 一 下 如 
果 有 一 个 恶意 的 客户 连接 到 该 服务 器 ， 发 送 一 个 字 节 的 数据 《不 是 换行 
TP) 后 进入 睡眠 ， 将 会 及 生 什 么 。 服 务 占 将 调用 read， 它 从 客户 读 入 这 
个 单字 节 的 数据 ， 然 后 阻塞 于 下 一 个 read 调 用 ， 以 等 待 来 自 该 客户 的 其 
余数 据 。 包 服务 器 于 是 因为 这 么 一 个 客户 而 被 阻塞 〈 称 它 被 " 挂 起 ”也 许 
更 确切 些 ) ， 不 能 再 为 其 他 任何 客户 提供 服务 〈 不 论 是 接受 新 的 客户 连 
ee PSU IHESU 个 换行 符 或 者 


这 里 的 一 个 基本 概念 是 : 当 一 个 服务 器 在 处 理 多 个 客户 时 ， 它 绝对 
不 能 阻塞 于 只 与 单个 客户 相关 的 东 个 函数 调用 。 人 否则 可 能 导致 服务 右 被 
挂 起 ， 拒 绝 为 所 有 其 他 客户 提供 服务 。 这 就 是 所 谓 的 拒绝 服务 (denial 
of service) 型 攻击 。 它 就 是 针对 服务 器 做 些 动作 ， 导 致 服务 露 不 再 能 关 


























其 他 合法 客户 提供 服务 。 可 能 的 解决 办 法 包括 : (a) 使 用 非 阻塞 式 
VO (16%) ; (bO 让 每 个 客户 由 单独 的 控制 线程 提供 服务 “例如 创 
NER M dd ; CO 对 LO 操作 设置 一 个 
HH] (14.247) 。 
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6.9 pselectiK ZA 
pselectPAZIUÉ HPOSIX AHI, A S8 VF Unix P FE e 


#include <sys/select.h> 
#include <signal.h> 
#include <time.h> 


int pselect(int maxfdpi, fd set *readset, fd set *writeset, fd set *exceptset, 
const struct timespec *timeout, const sigset t *sigmask); 

















ld: 车 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 








Es 

















pselect 相 对 于 通常 的 select 有 两 个 变化 。 


(1) pselect 使 用 timespec 结 构 ， 而 不 使 用 timeval 结 构 。timespec 结 
构 是 POSIX 的 又 一 个 发 明 。 


struct timespec { 
time t tv sec; /* seconds */ 
long tv nsec; /* nanoseconds */ 


了 





这 两 个 结构 的 区 别 在 于 第 二 个 成 员 : 新 结构 的 该 成 员 tv_nsec 指 定 
纳 秒 数 ， 而 旧 结 构 的 该 成 员 tv_usec 指 定 微 秒 数 。 


(2) pselect 函 数 增加 了 第 六 个 参数 : 一 个 指 回信 号 掩 码 的 指针 。 该 
参数 允许 程序 先 茶 止 递交 某 些 信 与 ， 再 测试 由 这 些 当 前 被 茶 止 信号 的 信 
号 处 理 函 数 设置 的 全 局 变量 ， 然 后 调用 pselect， 告 诉 它 重 新 设置 信号 
Tit Ru, 


关于 第 二 点 ， 考 虑 下 面 的 例子 〈 在 APUE 第 308 一 309 页 讨论 ) . XX 
个 程序 的 STGINT 信 号 处 理 函 数 仅 仅 设 置 全 局 变量 intr_flag 并 返回 。 如 果 
我 们 的 进程 阻 团 于 select 调 用 ， 那 么 从 信号 处 理 函 数 的 返回 将 导致 
select 返 回 EINTR 错 误 。 然 而 调用 select 时 ， 代 码 看 起 来 大 体 如 下 : 


if (intr flag) 
handle intr(); /* handle the signal */ 
if ( (nready = select( ... )) < 0) { 
if (errno -- EINTR) ( 
if (intr flag) 








handle intr(); 
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问题 是 ， 在 测试 intr_flag 和 调用 select 之 间 如 果 有 信号 发 生 ， 那 么 
大 select 水 远 阻塞 ， 访 信号 将 丢失 。 有 了 pselect 后 ， 我 们 可 以 按 以 下 
方式 可 靠 地 编写 这 个 例子 的 代码 : 


sigset t newmask, oldmask, zeromask; 








sigemptyset(&zeromask); 
sigemptyset(&newmask); 
sigaddset(&newmask, SIGINT); 


sigprocmask(SIG BLOCK, &newmask, &oldmask); /* block SIGINT */ 
if (intr flag) 

handle intr(); /* handle the signal */ 
if ( (nready = pselect( ... , &zeromask)) < 0) ( 


if (errno == EINTR) { 
if (intr_flag) 
handle_intr(); 
} 


在 测试 intr_flag 变 量 之 前 ， 我 们 阻塞 SITGINT。 当 pselect 被 调用 
时 ， 它 先 以 空 集 ( 即 zeromask) 蔡 代 进程 的 信号 掩 码 ， 再 检查 描述 符 ， 
并 可 能 进入 睡眠 。 然 而 当 pselect 函 数 返 回 时 ， 进 程 的 信号 掩 码 又 被 重 
置 为 调用 pselect 之 前 的 值 〈 即 SIGINT 被 阻塞 ) 。 


我 们 将 在 20.5 节 对 pselect 作 更 多 的 讨论 ， 并 给 出 一 个 它 的 例子 。 其 
中 图 20-7 使 用 了 pselect， 图 20-8 给 出 pselect 的 一 个 简单 但 不 太 正 确 的 
实现 。 


这 两 个 select 函 数 还 有 男 外 一 个 小 区 别 。timeval 结 构 的 第 一 个 成 
员 是 有 符号 的 长 整数 ， 而 timespec 结 构 的 第 一 个 成 员 是 time_t。 前 者 的 
有 符号 长 整数 本 也 应 该 是 time t， 不 过 并 没有 做 这 样 的 奶 溯 性 修改 ， 以 
防 破坏 已 有 代码 。 而 全 新 的 pselect 函 数 可 以 做 这 样 的 修改 。 





6.10 poll% žit 


poll eA ŽE T SVR3. wR Te (31%) . SVRABUH 
了 这 种 限制 ， 人 允许 po11 工 作 在 任何 描述 符 上 。pol1 提 供 的 功能 与 select 
类 似 ， 不 过 在 处 理 流 设备 时 ， 它 能 够 提供 额外 的 信息 。 


#include <poll.h> 
int poll(struct pollfd *fdarray, unsigned long nfds, int timeout); 

















返回 : 若 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 
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第 一 个 参数 是 指向 一 个 结构 数组 第 一 个 元 素 的 指针 。 每 个 数组 元 了 系 
都 是 一 个 pol1fd 结 构 ， 用 于 指定 测试 茶 个 给 定 摘 述 符 fd 的 条 件 。 


struct pollfd { 


int fd; /* descriptor to check */ 
short events; /* events of interest on fd */ 
short revents; /* events that occurred on fd */ 


}; 


要 测试 的 条 件 由 events 成 员 指 定 ， 函 数 在 相应 的 revents 成 员 中 返 
ATI AT RAS © 每 个 揪 述 符 部 有 两 个 变量 ， 一 个 为 调用 值 ， 力 一 
个 为 返回 结果 ， 从 而 避免 使 用 值 一 结果 参数 。 回 想 select 函 数 的 中 间 三 
个 参数 都 是 值 一 结果 参数 。) 这 两 个 成 员 中 的 每 一 个 都 由 指定 茶 个 特定 
条 件 的 一 位 或 多 位 构成 。 图 6-23 列 出 了 用 于 指定 events 标 志 以 及 测试 


revents 标 志 的 一 些 常 值 。 


作为 eyeris 的 输入 吗 ? 作为 revenks 的 站 采 吗 ? GENES 


"Tz SF aN ENG Ae A AE wT i 





POLLIN * 


POLLRDNORM . E 普通 数据 可 读 

POLLRDEAND . . LAER Ar eA nii 

POLLPRI . . 商 优 先 级 数据 可 该 

POLLOUT * . 158 Xidy up 

POLLNRNOHM . . 普通 数据 可 写 

POLLWRSAND . * 优先 级 市 数据 可 写 

POLLERR . 发生 错误 

POLLHUP E 发 生 挂 起 

POLLNVAL . 描述 符 不 是 一 个 打开 的 文件 


图 6-23 ”pol1 函 数 的 输入 events 和 返回 revents 


我 们 将 该 图 分 为 三 个 部 分 : 第 一 部 分 是 处 理 输入 的 四 个 和 常 值 ， 第 二 
部 分 是 处 理 输 出 的 三 个 常 值 ， 第 三 部 分 是 处 理 错误 的 三 个 常 值 。 其 中 第 
三 部 分 的 三 个 第 值 不 能 在 events 中 设置 ， 但 是 当 相 应 条 件 存在 时 整 
在 revents 中 返回 。 


pol1 识 别 三 类 数据 : 普通 (normal) 、 优 先 级 带 (priority band) 和 
高 优先 级 Chigh priority) 。 这 些 术语 均 出 自 基 于 流 的 实现 〈 图 31-5) 。 








POLLIN 可 被 定义 为 POLLRDNORM 和 POLLRDBAND 的 逻辑 或 。POLLIN 自 
SVR3 实 现 就 存在 ， 早 于 SVR4 中 的 优先 级 带 ， 为 了 同 后 兼容 ， 该 常 值 继 
续 保 留 。 类 似 地 ，PoLLouT 等 同 于 POLLWRNORM， 前 者 早 于 后 者 。 


就 TCP 和 UDP 和 套 接 字 而 言 ， 以 下 条 件 引起 po11 返 回 特定 的 revent。 
不 幸 的 是 ，POSIX 在 其 pol1 的 定义 中 留 了 许多 空洞 《 也 就 是 说 有 多 种 方 
法 可 返回 相同 的 条 件 ) 。 
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所 有 正规 TCP 数 据 和 所 有 UDP 数据 都 被 认为 是 普通 数据 。 
TCP 的 带 外 数据 (第 24 章 ) 被 认为 是 优先 级 带 数 据 。 

当 TCP 连 接 的 读 半 部 关闭 时 〔 壁 如 收 到 了 一 个 来 自 对 端的 FIN) , 
也 被 认为 是 普通 数据 ， 随 后 的 读 操 作 将 返回 0。 

TCP 连 接 存 在 错误 既 可 认为 是 普通 数据 ， 也 可 认为 是 错误 
(POLLERR) 。 无 论 哪 种 情况 ， 随 后 的 读 操 作 将 返回 -1， 并 把 errno 


Lom 值 。 这 可 用 于 处 理 诸如 接收 到 RST 或 及 生 超时 等 条 


。 在 监听 套 接 字 上 有 新 的 连接 可 用 既 可 认为 是 普通 数据 ， 也 可 认为 是 
优先 级 数据 。 大 多 数 实现 视 之 为 普通 数据 。 
。 非 阻塞 式 connect 的 完成 被 认为 是 使 相应 套 接 字 可 写 。 


结构 数组 中 元 素 的 个 数 是 由 nfds 参 数 指定 。 

历史 上 这 个 参数 曾 被 定义 为 无 符号 长 整数 (unsigned long) ， 似 
乎 过 分 大 了 。 定 义 为 无 符号 整数 (unsigned int) 可 能 就 足够 了 。Unix 
98 为 该 参数 定义 了 名 为 nfds_t 的 新 的 数据 类 型 。 


__ timeout 参数 指定 poll 函 数 返回 前 等 得 多 长 时 间 。 它 是 一 个 指定 应 等 
待 毫秒 数 的 正 值 。 图 6-24 给 出 了 它 的 可 能 取 值 。 








timeouttE 


INFT:M 永 还 等 等 





立即 返回 ， 不 阻塞 进 各 
TATIE A H INE 





图 6-24 ” poll 的 timeout 参 数值 


INFTIM 常 值 被 定义 为 一 个 负 值 。 如 果 系 统 不 能 提供 坚 秒 级 精度 的 定 
时 右 ， 该 值 就 向 上 舍 入 到 最 接近 的 支持 值 。 


POSIX 规 范 要 求 在 头 文件 <pol1.h> 中 定义 INFTIM， 不 过 许多 系统 仍 
然 把 它 定 义 在 头 文件 <sys/stropts.h> 中 。 


正如 select， 给 poll 指 定 的 任何 超时 值 都 受 限于 实际 系统 实现 的 时 钟 
分 辨 率 ( 通 常 是 10 ms). 


当 发 生 错 误 时 ，pol1 函 数 的 返回 值 为 -1， 知 定时 器 到 时 之 前 没有 任 
何 描述 符 就 绪 ， 则 返回 0， 人 否则 返回 束 绪 描述 符 的 个 数 ， 即 revents 成 员 
值 非 0 的 描述 符 个 数 。 
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如 果 我 们 不 再 关心 某 个 特定 描述 符 ， 那 么 可 以 把 与 它 对 应 的 pollfd 
结构 的 fd 成 员 设 置 成 一 个 负 值 。pol1 函 数 将 忽略 这 样 的 poLLfd 结 构 的 
events 成 员 ， 返 回 时 将 它 的 revents 成 员 的 值 置 为 0。 


回顾 6.3 节 结尾 处 我 们 就 Ep_sETSIZE 以 及 就 每 个 描述 符 集中 最 大 描述 
符 数 目 相 比 每 个 进程 中 最 大 描述 符 数 目 展开 的 讨论 。 有 了 poll 就 不 再 有 
那样 的 问题 了 ， 因 为 分 配 一 个 poL1fd 结 构 的 数组 并 把 该 数组 中 元 素 的 数 
目 通知 内 核 成 了 调用 者 的 责任 。 内 核 不 再 需要 知道 类 似 fd_set 的 固定 大 
小 的 数据 类 型 。 


POSIX 规 范 对 select 和 pol1 都 有 需要 。 然 而 从 当今 的 可 移植 性 角度 
考虑 ， 支 持 select 的 系统 比 支 持 po11 的 系统 要 多 。 男 外 POSIX 还 定义 了 
pselect， 它 是 能 够 处 理 信 号 阻塞 并 提供 了 更 高 时 间 分 辨 率 的 select 的 
增强 版 本 。POSIX 没 有 为 poll 定 义 类 似 的 东西 。 


611 TCP 回 和 冉 服 务 嚣 程序 (再 修订 版 ) 


我 们 现在 用 pol1 蔡 代 select 重 写 6.8 节 的 TCP 回 射 服务 器 程序 。 在 使 
用 select 早 先 那 个 版 本 中 ， 我 们 必须 分 配 一 个 client 数 组 以 及 一 个 名 
为 rset 的 描述 符 集 〈 图 6-15) 。 改 用 poll 后 ， 我 们 只 需 分 配 一 个 pollfd 
结构 的 数组 来 维护 客户 信息 ， 而 不 必 分 配 男 外 一 个 数组 。 我 们 以 与 图 6- 
15 中 处 理 client 数 组 相同 的 方法 处 理 该 数组 的 fd 成 员 : 值 -1 表示 所 在 项 
未 用 ， 人 否则 即 为 描述 符 值 。 回 顾 前 一 节 ， 我 们 知道 传递 给 po11 的 poLl1fd 
结构 数组 中 的 任何 fd 成 员 为 负 值 的 项 都 被 poll 忽 略 。 
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图 6-25 给 出 了 我 们 的 服务 占 程 序 的 前 半 部 分 。 








tcecliservtepservpollül.c 





1 fincluce "了 .bn 
2 finclu2e zlimits.h- /* for OPEN MAX */ 
3 ant 


4 main(int arac, cher **arav) 
e 


d 


6 int i, maxi, lis-enfd, cornfd, sockfd: 

" iat nrzead3v; 

6 ssize_t n; 

© char buf [MAXLINF] ; 

10 sccklen t clilen; 

1L struct poll=c client [OPEN MAX]: 

12 struct sockacdr in cliadér, servaddr; 

13 lisLeufd = SockeL[AF TNET, SOCK SIREAM, 01; 

14 bzero(&servacdr, sizeofiservaddr!); 

15 ocrvaddr.cin tf2mi.y - AP INET; 

16 servadd-z.sin a3dr.s addr - htonl [INADDR_ANY: ; 

17 servadd-.sin port = atems (SERV FORT); 

18 Bind/listen?C, (SA +) &servadd-, sizeof (servedir)); 

19 Liecenilister.fad. LIS'TENQ); 

20 clianz [0).fd = lictentd; 

21 clianz [0} .events = PCLURDNORM; 

22 fcr {i = 1; i e OPEM MAX; i++) 

23 clíent[i].fd = -1; /* -上 indicates available entry */ 
24 maxi = 0; /* max index into clicnt|] array */ 


Icpcliserv/tepservpollül.c 


图 6-25 ”使 用 pol1 函 数 的 TCP 服 务 器 程序 的 前 半 部 分 


分 配 pollfd 结 构 数 组 





11 我们 声明 在 pol1lfd 结 构 数 组 中 存在 oPEN_MAX 个 元 素 。 确 定 一 个 
进程 任何 时 刻 能 够 打开 的 最 大 描述 符 数 目 并 不 容易 ， 我 们 将 在 图 13-4 中 
再 次 遇 到 这 个 问题 。 方 法 之 一 是 以 参数 sc_0PEN_MAX 调 用 POSIX 的 
sysconf 函 数 〈 如 APUE 第 42 一 44 页 旦 所 述 ) ， 然 后 动态 分 配 一 个 合适 大 
小 的 数组 。 然 而 sysconf 的 可 能 返回 之 一 是 “indeterminate”( 不 确定 ) ， 
cessus 个 值 。 这 里 我 们 就 用 POSIX 的 oPEN_MAX 常 





初始 化 
20-24 ”我 们 把 client 数 组 的 第 一 项 用 于 监听 套 接 字 ， 并 把 其 余 各 
项 的 描述 符 成 员 置 为 -1。 我 们 还 给 第 一 项 设置 PoLLRDNORM 事 件 ， 这 样 当 
有 新 的 连接 准备 好 被 接受 时 po11 将 通知 我 们 。maxi 变 量 含 有 client 数 组 
当前 正在 使 用 的 最 大 下 标 值 。 
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main 函 数 的 后 半 部 分 示 于 图 6-26 中 。 


tcpcliservitepservpolül.c 


25 for dE V 

26 "ready = Poll(clienr, maxi + 1, THFTTM); 

27 if /client([0:.zevents & POLLRDNORM) { /* new client connection */ 
28 clilen = oizcof(cliaddr!; 

29 connEd = Accept(listenfd, (SA +) &cliaddr, &clilen!; 
an far (i21: ie OFEN MAX; ive! 

31 if iclient[1].f3 « 9) { 

a2 client [i].fd = conntd: /* save descriptcr */ 
32 break; 

34 ) 

35 if (i -- OPEN MAX) 

36 orr_quit ("too many clients"); 

37 client [i] .events = FOLLRDNORM; 

AR if fh > maxi! 

39 maxi = i: /* max index in client(] array */ 
ac it (--nready <= 0) 

41 continue; /* ro nore readable descriptors */ 
42 } 

a3 for (i = 1; i <= maxi; i++) { /* check all clients for data */ 
14 if | (eockia = client[i].fd) < V) 

15 continue; 

46 if ‘client {i).revents & (POLLRONCRM | 9OLLERR)! | 

a7 if | in = read[(eockfd, buč, MAXLINX)) < 0) { 

46 it larrno -- BCCNNRZSET! f 

49 /*cennection reset by client */ 

56 Close (scckfd) ; 

51 clisn-:;i].fd = -1; 

52 ) eise 

S3 err sys("read error"); 

54 ) else i= (n == 0) { 

S5 {*eonnection close? ^y client */ 

5€ Close |eockra) ; 

57 clientlil.£d = -i; 

56 } else 

sa Writení(so-kfd, kuf, ni; 

5U if ;--nready <= 0) 

61 breāk; /* no more rcacaz.2 descriptors */ 
62 } 

62 ) 

54 } 

65 ] 


fenelisernvtcpservpoll0l.c 


图 6-26 ”使 用 po11 的 TCP 服 务 器 程序 的 后 半 部 分 
调用 po11， 检 查 新 的 连接 


26-42 ”我 们 调用 poll 以 等 待 新 的 连接 或 者 现 有 连接 上 有 数据 可 
读 。 当 一 个 新 的 连接 被 接受 后 ， 我 们 在 client 数 组 中 查找 第 一 个 描述 符 
成 员 为 负 的 可 用 项 。 注 意 ， 我 们 从 下 标 1 开始 搜索 ， 因 为 client[6] 固 定 
用 于 监听 套 接 字 。 找 到 一 个 可 用 项 之 后 ， 我 们 把 新 连接 的 描述 符 保 存 到 
其 中 ， 并 设置 PoLLRDNORM 事 件 。 
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43-63 ”我 们 检查 的 两 个 返回 事件 是 PoOLLRDNORM 和 POLLERR。 其 中 我 
们 并 没有 在 event 成 员 中 设置 第 二 个 事件 ， 因 为 它 在 条 件 成 立时 总 是 返 
回 。 我 们 检查 PoLLERR 的 原因 在 于 : 有 些 实现 在 一 个 连接 上 接收 到 RST 时 
返回 的 是 PoLLERR 事 件 ， 而 其 他 实现 返回 的 只 是 PoLLRDNORM 事 件 。 不 论 哪 
种 情形 ， 我 们 都 调用 read， 当 有 错误 发 和 后 时 ，read 将 返回 这 个 错误 。 当 
一 个 现 有 连接 由 它 的 客户 终止 时 ， 我 们 就 把 它 的 fd 成 员 置 为 -1。 











6.12 小 结 
Unix 提 供 了 五 种 不 同 的 VO 模型 : 


阻塞 式 VO 模 型 ; 
非 阻塞 式 IO 模 型 ; 
IO 复 用 模型 ; 

feit UE UOS; 
异步 IO 模 型 。 


默认 为 阻塞 式 IO 模 型 ， 它 也 是 最 党 用 的 MO 模型 。 在 以 后 章节 中 ， 
我 们 将 讨论 非 阻 塞 式 MO 模型 和 信和 号 驱动 式 JO 模 型 ， 而 本 章 讨论 的 是 IO 
复 用 模型 。 真正 的 异步 1O 模 型 是 由 POSIX 规 范 定义 的 ， 不 过 很 少 有 它 
的 实现 存在 。 


1/O 复 用 模型 最 常用 的 函数 是 select。 我 们 告知 该 函数 (就 读 、 写 
和 异常 条 件 ) 所 关心 的 描述 符 、 最 长 等 待 时 间 以 及 最 大 描述 符号 (加 
D 。 大 多 数 select 调 用 指定 的 是 可 读 条 件 ， 而 对 于 套 接 字 描述 符 ， 唯 
一 的 异常 条 件 是 带 外 数据 的 到 达 (第 24 章 ) 。 既 然 select 可 以 提供 函数 
Fe een eee nese 
| EST TAY BR il] « 


我 们 以 批量 方式 运行 用 select 编 写 的 回 射 客户 程序 ， 发 现 即 使 已 经 
遇 到 了 用 户 输入 的 结尾 ， 仍 可 能 有 数据 处 于 去 往 或 来 自 服务 器 的 管道 
中 处理 这 种 情形 要 求全 用 sursom 男 效 ， 这 全 得 我 们 能 网 用 上 TCP 的 
半 关闭 特性 。 


混合 使 用 stdio 绥 冲 机 制 (我们 自己 的 readline 绥 冲 机 制 也 不 例外 ) 
和 select 的 危险 促成 我 们 提供 针对 缓冲 区 而 不 是 文本 行 操 作 的 回 射 客户 
程序 和 服务 器 程序 的 正确 版 本 。 


POSIX 定 义 的 pselect 函 数 把 时 间 精 度 从 微 秒 级 增加 到 纳 秒 级 ， 并 
采用 一 个 指向 信号 集 的 指针 作为 它 的 一 个 新 参数 。 当 有 信号 需要 捕获 
A n Ed 
ZR o 
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tH E System V 的 pol1 函 数 提 供 类 似 于 select 的 功能 ， l AERE Ait 
设备 提供 额外 信息 。POSIX 对 select 和 pol1 都 有 需要 ， 不 过 前 者 使 用 得 
更 为 频繁 。 


N 


习题 


àq 


6.1 我 们 说 过 一 个 描述 符 集 可 以 用 C 语 言 中 的 赋值 语句 赋 给 另 一 摘 
述 符 集 。 如 果 摘 述 符 集 是 一 个 整 型 数组 ， 那 么 这 是 如 何 做 到 的 ? ( 提 
示 : 研究 一 下 你 自己 的 系统 中 的 <sys/select.h> 或 <sys/types.h> 头 文 
件 。 ) 


6.2 在 6.3 市 讨论 select 返 回 “ 可 写 ” 条 件 时 ， 为 什么 必须 限定 套 接 
字 为 非 阻 竖 才 可 以 说 一 次 写 操作 将 返回 一 个 正 值 ? 


63 如果 在 图 6-9 的 第 19 行 上 的 if 关键 词 前 加 上 else 关 键 词 ， 将 会 
发 生 什 么 ? 


6.4 ”在 图 6-21 的 例子 中 加 上 一 段 代码 ， 使 得 服务 费 能 够 使 用 内 核 当 
前 允许 的 最 多 描述 香 数 。 (提示: 研究 一 下 setrlimit 函 数 。) 


65 ”让 我 们 看 看 当 shutdown 的 第 二 个 参数 为 SHUT_RD 时 将 发 生 什 
么 。 以 图 5-4 中 的 TCP 客 户 程 序 为 基础 并 做 如 下 改动 : 把 端口 号 从 
SERV_PORT 改 为 19， 也 就 是 chargen 服 务 嚣 (图 2-18〉 所 监听 的 端口 ， 以 
调用 pause 取 代 调 用 str_c1li。 指 定 本 地 局 域 网 上 运行 chargen 服 务 器 的 某 
个 主机 的 IP 地 址 来 运行 这 个 客户 程序 。 以 诸如 tcpdump (C.5 3) 这 类 工 
具 观 察 分 组 ， 看 到 发 生 了 什么 ? 


6.6 ”为 什么 应 用 程序 会 以 参数 SHUT_RDWR 来 调用 shutdown， 而 不 是 
仅仅 调用 close? 


67 图 6-22 中 当 客 户 发 送 一 个 RST 来 终止 连接 时 ， 将 会 发 生 什么 ? 


68 重 写 图 6-25 中 的 代码 ， 调 用 sysconf 来 确定 描述 符 的 最 大 数 
目 ， 并 相应 地 分 配 client 数 组 。 
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(DFD_SETSIZE 常 值 的 声明 一 直 是 在 头 文件 <sys/types.h> 中 (4.4BSD 和 和 
4.4BSD-Lite2) ， 不 过 更 新 的 源 自 BSD 的 内 核 和 源 自 SVR4 的 内 核 把 它 改 





放 在 头 文件 <sys/select.h> 中 。 值 得 注意 的 是 ， 有 些 应 用 程序 〈 典 型 例 
子 是 需要 复 选 大 量 描 述 符 的 事件 驱动 型 服务 器 程序 ， 所 需 描 述 符 量 超过 
1024 个 ) 开始 改 用 pol1 代 替 select， 这 样 可 以 避免 描述 符 有 限 的 问题 。 
还 要 注意 的 是 ，select 的 典型 实现 在 描述 符 数 增 大 时 可 能 存在 扩展 性 问 
题 。 


@ 新 作者 从 6.7 节 开始 关于 回 射 服务 的 讨论 实际 上 已 经 放弃 第 2 版 面向 文 
本 行 的 一 贯 做 法 ， 这 是 符合 RFC 862 的 。 尽 管 程序 是 正确 的 ， 然 而 在 解 
释 程序 时 他 们 有 时 候 却 往往 直接 照抄 Stevens 先 生 的 说 法 。 以 上 这 段 文字 
就 是 直接 照抄 的 ， 只 是 在 第 一 次 出 现 read 一 词 的 地 方 ， 把 Stevens 先 生 使 
用 的 readline 改 成 了 read。 第 2 版 中 对 应 的 本 服务 器 程序 是 面向 文本 行 
的 ， 调 用 的 是 readline 而 不 是 read， 上 一 段 文字 中 出 现 的 第 二 个 read 指 
的 是 readline 内 部 的 read 调 用 (readline 总 是 要 读 到 换行 符 或 EOF 才 返 
[D 。 对 于 不 再 面 癌 文本 行 的 回 射 服务 来 说 ，Stevens 先 生 讲 述 的 由 于 等 
待 读 入 换行 符 或 EOF 而 引起 的 拒绝 服务 攻击 已 不 复 存 在 。 接 下 去 的 文字 
仍然 需要 按照 第 2 版 中 对 应 的 服务 器 程序 来 理解 。 一 一 译 者 注 


@) 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 41 页 ， 第 2 
版 中 文 版 为 第 32 一 33 页 。 编者 注 
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7.1 概述 


有 很 多 方法 来 获取 和 设置 影响 套 接 字 的 选项 : 








e getsockopt fllsetsockopt PAŽI; 
e font lLEZy; 
e ioctliK Zi. 


本 章 从 介绍 getsockopt 和 setsockopt 函 数 开 始 ， 接 着 给 出 一 个 输出 
所 有 选项 默认 值 的 例子 ， 然 后 详细 介绍 所 有 套 接 字 选项 。 我 们 按 以 下 分 
类 进行 详细 介绍 : 通用 、IPv4、IPv6、TCP 和 SCTP。 在 第 一 次 阅读 本 章 
时 ， 这 些 细节 可 以 跳 过 ， 当 需要 时 再 回来 看 个 别 章 节 。 个 别 选项 在 后 续 
章节 中 还 有 更 为 详细 的 讨论 ， 璧 如 IPv4 和 IPv6 多 播 选 项 在 21.6 节 我 们 讲 
解 多 播 时 还 会 讨论 到 。 


我 们 还 介绍 fcnt1 函 数 ， 因 为 它 是 把 套 接 字 设置 为 非 阻 塞 式 UO 型 或 
言 号 驱动 式 L/O 型 以 及 设置 套 接 字 属 主 的 POSIX 的 方法 。 我 们 把 ioct1 函 
数 的 讨论 留 到 第 17 章 。 
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7.2 getsockopt/Zllsetsockopt PK Zi 
这 两 个 函数 仅 用 于 套 接 字 。 


#include <sys/socket.h> 


int getsockopt(int sockfd, int level, int optname, void *optval, socklen_t 
*optlen); 


int setsockopt(int sockfd, int level, int optname, const void *optval, 
socklen_t optlen); 





均 返 回 : 若 成 功 则 为 9， 若 出 错 则 为 -1 





其 中 sockfd 必 须 指 同 一 个 打开 的 套 接 字 描 述 符 ，level 级别， 指定 
系统 中 解释 选项 的 代码 或 为 通用 套 接 字 代码 ， 或 为 某 个 特定 于 协议 的 代 
码 〈 例 如 IPv4、IPv6、TCP 或 SCTP) 。 


optval 是 一 个 指 癌 某 个 变量 (*optval) 的 指针 ，setsockopt 从 
*optval 中 取得 选项 待 设置 的 新 值 ，getsockopt 则 把 已 获取 的 选项 当前 值 
存放 到 *optval 中 。*optval 的 大 小 由 最 后 一 个 参数 指定 ， 它 对 于 
setsockopt 是 一 个 值 参 数 ， 对 于 getsockopt 是 一 个 值 一 结果 参数 。 


图 7-1 和 图 7-2 汇 总 了 可 由 getsockopt 获 取 或 由 setsockopt 设 置 的 选 
项 。 其 中 的 “数据 类 型 * 列 给 出 了 指针 optval 必 须 指 同 的 每 个 选项 的 数据 
类 型 。 我 们 用 后 跟 一 对 花 括号 的 记 法 来 表示 一 个 结构 ， 如 1inger{ 束 表 


示 struct linger. 





一 标志 





IsPROTO IP: 
IzPROTO IPV 


1P TIL 
IP MULTICAS7 IF 
1p MULVICAS- "TL 
IP_MULTICAST_LOOP 


TP_LINFLOCK SPCR 
TP_ADD_SCURCE_N@MSER.SHT = 
TP nRCP SOURCE WEMRERSHTP 


1Pv6 HECVHCPLIMIT 
1PV6 REZVHCPOPIS 
LPV6 RECVEXCHMIC 
TBU6_ REZVPK-IHEO 
IPVS RECURTHDR 

IPV6 RE-VICLASS 
IPV& IMICAST HOES 
TPVÉ SR MfH MT" 
IPV6 VINEY 

fPVé XXX 

IPV6 MULTICAST IF 
IPU6_MULTICAST HOPS 
IPV6_MULTICAST_LOOP 
IPV6 JOIN GROUP 
IPV6 LEAVE GhOUT 
FCREI JUIN GEQUIL 
MCAST LEAVE RUD 


MCAST JOIN SOURCE GROUP 
MCAST LEAVE SOURCE GROUP 
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SCTP ADAPT-ON LAYER 
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SCTP AUTOCLOSE 
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ACTP DETALT SEND PARAM Ri Os setg snlecvinfn:) 
SCT? CICABLS PRACMENTE SCTP 3 H- int 


BCTP EVENTS 
OCTP CET PE3R ADCR INFO 
SCTP 1 WANZ MAPPED V4 AZDR 
SCTP INITMSG 
SCTP MAXBURZI 
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A NF 4d] 
MANTSA 
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BCTP MAXSEG E Wh ^e 
BCTP NODELAY . 18d Nile 7h int 
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BCTP FRIMARZ ADOR t EH riti sctp sstprim[] 
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sctp setpeerprin() 
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图 7-2 ”传输 层 的 套 接 字 选项 汇总 





套 接 字 选项 粗 分 为 两 大 基本 类 型 : 一 是 启用 或 禁止 某 个 特性 的 二 元 
选项 ( 称 为 标志 选项 ) ， 二 是 取得 并 返回 我 们 可 以 设置 或 检查 的 特定 值 
的 选项 ( 称 为 值 选项 ) 。 标 有 “标志 ”的 列 指出 一 个 选项 是 否 为 标志 选 

。 当 给 这 些 标志 选项 调用 getsockopt 函 数 时 ， *optvalz& — ^ 4€ 
数 。 *optval 中 返回 的 值 为 0 表示 相应 选项 被 禁止 ， 不 为 0 表示 相应 选项 被 
ih 类 似 地 ， ward MU UE 

， 一 个 为 0 的 *optval 值 来 禁止 选项 。 如 果 “ 标 志 ” 列 不 含有 “+ ”， 那 么 相 
CARRIERS QU CRAS ELE UE NORD. 


本 章 后 续 各 市 将 给 出 影响 套 接 字 的 各 个 选项 的 额外 细节 。 








7.3. RAR ce BS SCH FPR 


现在 我 们 写 一 个 程序 来 检查 图 7-1 和 图 7-2 中 定义 的 大 多 数 选项 是 否 
若是 则 输出 它们 的 默认 值 。 图 7-3 给 出 了 我 们 这 个 程序 的 所 
声明 。 
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声明 可 能 


Hinclude "unp.r" 
Hine] ude «net-ret /tcp.h» /* far TCP xxx defines 
Lnicn val { 

int i val; 

long J val; 

scruct linger lirger val; 

s-ruct timevel timeval val; 
) vai; 
static char *sock str Elagiumion val. v, int); 
stalic char “sock str int (union val ^, int]; 
ctazic char *oock ctr l:nger/union val *, int); 
sta-ic char “sock str LLmeval(unios val *, int}; 
struct sock optas ( 

ccnst char OPE str; 

int apt evel; 

int opt nsme; 

char 4(4upt va^ str) iunior val >, int); 


} sce« optc[] = { 


í "SC BROADCAST", SOL SOCKET, SO BROADCAST, 
i "SC DEBUG", SOL SOCKET, SC DEDUG, 
i "SU JONTHROUTE', SUL SOCKET, SC DONTRJUTE, 
1 "SC ERROR", SAL SOCKET, SC ERROR, 
i "EU KEEPCALIVE*, EO)L SOCKET, SC_KEEVALIVE, 
1 "SC LINGES", SOL SOCKET, SC LINGER, 
i "EC OOBINLINE', SOL SOCKET, SC_OOBINLINE, 
i "SC RCVBUF", SOL SOCKET, SC RCVBUF, 
i "SC ADM", SAL SOKET, SC SNDhUP, 
{SG BONLOWAI", SOUL SOCKET, SC EUVLOWAT, 
i "SC SND'OWAT", SIL SOCKET, SC SND-OWAT. 
i "5C RCVTIMEO", EOL SOCKET, EC RCVTIMEO, 
i "SC SNDTIMEO", SOL SOCKRT, SC_SNDTIMED, 
i "SC REUSEADOR', SOL SOCKET, SC REUSEADOR, 
Hifdef SO RBUSEPCRT 
| "SC SRÉSEPORT', S^L SO^CKRT, SC RFÜSEPORT, 
Helse 
| "SC REUSEPORT', 6, ð, 
Hendit 
1 "SC TYPE", SOL SOCKET, SC TYPZ, 
i "SC JSELOOPBACK*, SOL SOCKET, SC USE-OOPBACK, 
i "Ip TOS", IPPROTC IP, IP TOS, 
U TÉ TIL, TPPROT IP, TE_TTH, 


| "IFV5 UNICAST HOPS", 

i "IFVS VGONLY", IPPROTC_IPVS, IPV6_VGONLY, 

i "TCP MAXS3G", IPPROTO TCP, TCP MAXSES, 

i "TCP NODELAY", IPPROTC TCP, TCP_NCDBLAY, 

1 "SCTP AUIOCLOSE", IPPROTG_ECTE, SCTP_AUTOCLOZE, 
| "SCTP MAXAURST", TPPROT_SCT2, SCTP_MAXRITRST, 
i "SCTE NAXDEG", IPPROTU ZCTP,UCTP MAXSEC, 

| "SCTP NODSLAY*, IPPROTO SCT?,SCT? NODELAY, 

Í NULL, 0, 0, 


"IFVS DONTFRAG", 


IPPRODO_IPVS, LPV6_DONTFRAG, 
IPPROTO IPVS,IPVS UNICAST HOES, sock str int ). 


sackanicheckonts.c 


+) 


sock str flag }, 
sock_str_flag |]. 
sock etr flag |, 
socx str :rt }, 
so0cx str flag ], 
sock stringer ^, 
socx ctr tlag ], 
sock str irt }, 
soc« str ine }, 
sock str irt }, 
sock_str_int }, 
sock_str_timeval }, 
sock str timeval ), 
socx str flag }, 


sock str flag }, 
NULL }, 


sock str int }, 
socx str flag }, 
socz str irt ), 
sock str :rt }, 
Bocx_Btr flag }, 


soc« str flag }, 
Sock str irt }, 
sock str flag |, 
sock ctr int }, 
sock str irt E. 
Soc« str -rt }, 
sock str flag }, 
NULL ) 


值 的 union 


图 7-3” 套 接 字 选 项 检查 程序 的 声明 


sackopvcheckoprs.c 


3-8 ”对 于 getsockopt 的 每 个 可 能 的 返回 值 ， 我 们 的 union 类 型 中 都 
有 一 个 成 册 s 


9-12 ”我 们 为 用 于 输出 给 定 套 接 字 选项 的 值 的 4 个 函数 定义 了 原 


型 。 





定义 结构 并 初始 化 数组 


13-52 ”我 们 的 sock_opts 结 构 包 含 了 给 每 个 套 接 字 选项 调 
用 getsockopt 并 输出 其 当前 值 所 需要 的 所 有 信息 。 它 的 最 后 一 个 成 
员 opt_val_str 是 指向 用 于 4 个 选项 值 输出 函数 中 的 某 一 个 的 指针 。 我 们 
ANCORA AM uh AP, "ETHER GR I elo 
项 。 
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并 非 所 有 实现 都 支持 所 有 的 套 接 字 选项 。 确 定 某 个 给 定 选项 是 否 得 
到 支持 的 方法 是 用 语句 #ifdef 或 #if defined， 如 图 中 So_REUSEPORT 选 项 
所 示 。 为 求 完整 的 话 ， 本 数组 中 每 个 元 素 都 应 类 似 so_REUSEPORT 所 示 编 
写 ， 不 过 我 们 省 略 了 这 些 ， 因 为 一 大 堆 #ifdef 语 句 仅仅 加 长 了 代码 ， 对 
于 我 们 的 讨论 没有 什么 用 处 。 
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图 7-4 给 出 了 我 们 的 main 函 数 。 


soe gap checkopisic 


53 int 


54 nainiin- argc, char **argv; 


ss 1 
56 
7 


Li 


int fd; 
sccklen_t len; 
sinw: soek cpts*ptr; 


fcr ipt> = scck cpts; ptr-»opt str !- NULL; ptr-+) : 
p-inrf(*&s: *, ptr-»orct str!; 
i= (ptr-»oct val str == MUL-) 

pzintt(*(undetinez, n";,; 

else 上 

switzh(p-r-»apt. lavel!) i 

case SCL SOCKET: 

Cate LEPRULU IP: 

case IPPROTO_TCP: 
fd = SockeL|AF INET, SOCK STREAM, 1); 
Ersax; 


70 fifdez Ipve 


71 case IEFPROTO IIW6: 

72 fd = Socket |AP_INETS, SCCK STREAM, 0); 
73 brsat; 

74 fondiz 


75 @#ifde= IPPRZTO SCTP 


76 case TFPROTO SCTP: 

ET fd = Socket |AF_INET, SOCK_SZQPACKET, IEPROTO_SCTP); 

78 breas; 

79 #endit 

BO default: 

81 err quit("Can't creata fd for level &dan", ptr-sopt level); 
B2 ) 

B3 le: s s_zeof{vali; 

B4 i= (getsecxopt (fd, ptr-»obot level, ptr-»cp- name. 

B5 &val, Sleen) == -1) { 

EG err retí"getaockopt errcr’); 

E7 ) else ， 

BR printf ("default = $3\n", (*prv-»nopr val srr)(&vel, len)); 
E9 } 

S close (Ed ; 

s1 } 

$2 } 

53 exit i9); 

S4 


sockopi/checkopis.c 


Kl7-à ”检查 所 有 套 接 字 选 项 的 main 函 数 


过 有 历 所 有 选项 


59-63 


RANE sock_opts BUH PH PP 7638 »— ERAT 7G RR IT 


opt_val_str 指 针 为 空 ， 那 么 该 实现 没有 定义 相应 的 选项 〈 我 们 的 例子 
中 so_REUSEPORT 选 项 有 可 能 就 是 这 样 ) 。 
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创建 套 接 字 


63-82 ”我 们 创建 一 个 用 于 测试 选项 的 套 接 字 。 测 试 套 接 字 层 、 
TCP 层 和 IPv4 层 套 接 字 选 项 所 用 的 是 一 个 IPv4 的 TCP 套 接 字 ， 测 试 IPv6 
层 套 接 字 选 项 所 用 的 是 一 个 IPv6 的 TCP 套 接 字 ， 测 试 SCTP 层 套 接 字 选项 
所 用 的 是 一 个 IPv4 的 SCTP 套 接 字 。 


调用 getsockopt 


83-87 ”我 们 调用 getsockopt， 不 过 在 返回 错误 时 并 不 终止 。 许 多 实 
现 会 定义 一 些 尚未 提供 支持 的 套 接 字 选项 的 名 字 。 这 些 不 受 支 持 的 选项 
应 该 引发 一 个 ENOPROT00PT 错 误 。 


输出 选项 的 默认 值 


88-89 如 果 getsockopt 返 回 成 功 ， 那 么 我 们 调用 相应 的 选项 值 输出 
函数 将 选项 值 转换 为 一 个 字符 串 并 输出 。 


在 图 7-3 中 我 们 给 出 了 4 个 函数 原型 ， 每 个 类 型 的 选项 值 一 个 。 图 7-5 
给 出 了 这 4 个 函数 中 的 一 个 即 sock_str_flag， 它 输出 标志 类 型 选项 的 
值 。 其 他 3 个 函数 与 之 类 似 。 





sockopi/cheekopis.c 





95 static char szrrea 120]; 

$6 Static char* 

97 sock ctr tlag(union val “ptr, in- len) 

$8 上 

a9 E" (len t= siseol (int)! 

1L0U0 snprintf (strres, sizecf(scrres), "size (td) not sizeof int)", leni; 
101 else 

102 snprintfí(strres, sizecfí(s-cr-es), 

103 "EsS* iptr-»i val == 6) ? "off* : "'on"): 
104 return(strtes); 

165 | 


sockopi/checkcpis.c 


图 7-5 sock str flagPÁZ: 将 标志 选项 转换 为 字符 串 


99-104 ”回顾 getsockopt 的 最 后 一 个 参数 ， 它 是 值 一 结果 参数 。 我 
们 所 做 的 第 一 项 检查 就 是 getsockopt 返 回 值 的 大 小 是 否 为 期 望 的 大 小 。 
本 函数 返回 的 字符 串 或 为 off， 或 为 on， 取 决 于 标志 选项 的 值 是 0 还 是 非 
0. 
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m 


在 安装 了 KAME SCTP#h J] BJFreeBSD 4.8 上 运行 该 程序 


freebsd % checkopts 

SO_BROADCAST: default = off 
SO_DEBUG: default = off 
SO_DONTROUTE: default = off 
SO_ERROR: default = 0 

SO_KEEPALIVE: default = off 

SO LINGER: default = 1 onoff = 0, 1 linger = 0 
SO OOBINLINE: default = off 

SO RCVBUF: default - 57344 

SO SNDBUF: default - 32768 

SO RCVLOWAT: default 1 

SO SNDLOWAT: default 2048 

SO RCVTIMEO: default 0 sec, © usec 
SO SNDTIMEO: default 0 sec, © usec 
SO REUSEADDR: default off 

SO REUSEPORT: default off 

SO TYPE: default - 1 

SO USELOOPBACK: default - off 

IP TOS: default = 0 

IP TTL: default - 64 

IPV6 DONTFRAG: default - off 

IPV6 UNICAST HOPS: default - -1 

IPV6 V60NLY: default = off 

TCP MAXSEG: default - 512 

TCP NODELAY: default = off 

SCTP AUTOCLOSE: default = 0 

SCTP MAXBURST: default - 4 

SCTP MAXSEG: default - 1408 

SCTP NODELAY: default = off 


so0_TYPE 选 项 的 返回 值 1 对 应 于 该 实现 的 sock_STREAM。 


yz) 
M 


到 如 下 输 


74 TET 


对 于 茶 些 套 接 字 选 项 ， 针 对 套 接 字 的 状态 ， 什 么 时 候 设 置 或 获取 选 
项 有 时 序 上 的 考虑 。 我 们 对 受 影 响 的 选项 论 及 这 一 点 。 


下 面 的 套 接 字 选项 是 由 TCP 已 连接 套 接 字 从 监听 套 接 字 继承 来 的 
CTCPv258462-— 463 
页 ) : SO DEBUG. SO DONTROUTE. SO KEEPALIVE. SO LINGER. SO OOBINLJ 
和 TcP_NODELAY。 这 对 TCP 是 很 重要 的 ， 因 为 accept 一 直 要 到 TCP 层 完成 
三 路 握手 后 才 会 给 服务 器 返回 已 连接 套 接 字 。 如 果 想 在 三 路 握手 完成 时 
确保 这 些 套 接 字 选项 中 的 某 一 个 是 给 已 连接 套 接 字 设置 的 ， 那 么 我 们 必 
须 先 给 监听 套 接 字 设 置 该 选项 。 




















7.5 ”通用 套 接 字 选 项 


我 们 从 通用 套 接 字 选项 开始 讨论 。 这 些 选项 是 协议 无 关 的 (也 就 是 
说 ， 它 们 由 内 核 中 的 协议 无 关 代码 处 理 ， 而 不 是 由 诸如 IPv4 之 类 特殊 的 
协议 模块 处 理 ) ， 不 过 其 中 有 些 选 项 只 能 应 用 到 某 些 特定 类 型 的 套 接 字 
中 。 举 例 来 说 ， 尽 管 我 们 称 So_BRoADCAST 套 接 字 选项 是 “通用 ”的 ， 它 却 
只 能 应 用 于 数据 报 套 接 字 。 
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7.5.1 SO_BROADCAST 套 接 字 选项 


本 选项 开启 或 禁止 进程 发 送 广 播 消息 的 能 力 。 只 有 数据 报 套 接 字 支 
持 广播 ， 并 且 还 必须 是 在 支持 广播 消息 的 网 络 上 《例如 以 太 网 、 令 牌 环 
网 等 ) 。 我 们 不 可 能 在 点 对 点 链 路 上 进行 广播 ， 也 不 可 能 在 基于 连接 的 
传输 协议 〈 例 如 TCP 和 SCTP) 之 上 进行 广播 。 我 们 将 在 第 20 章 中 更 为 
详细 地 讨论 广播 。 


由 于 应 用 进程 在 发 送 广播 数据 报 之 前 必须 设置 本 套 接 字 选项 ， 因 此 
它 能 够 有 效 地 防止 一 个 进程 在 其 应 用 程序 根本 没有 设计 成 可 广播 时 就 发 
送 广播 数据 报 。 举 例 来 说 ， 一 个 UDP 应 用 程序 可 能 以 命令 行 参 数 的 形式 
取得 目的 IP 地 址 ， 不 过 它 并 不 期 望 用 户 键入 一 个 广播 地 址 。 处 理 方 法 并 
非 让 应 用 进程 来 确定 一 个 给 定 地 址 是 否 为 广播 地 址 ， 而 是 在 内 核 中 进行 
测试 : 如果 该 目的 地 址 是 一 个 广播 地 址 且 本 套 接 字 选 项 没有 设置 ， 那 么 
返回 EAccES 错 误 (CTCPv2 第 233 页 ) 。 


7.5.2 ”SO_DEBUG 套 接 字 选项 

本 选项 仅 由 TCP 支 持 。 当 给 一 个 TCP 套 接 字 开 启 本 选项 时 ， 内 核 将 
为 TCP 在 该 套 接 字 发 送 和 接收 的 所 有 分 组 保留 详细 跟踪 信息 。 这 些 信息 
保存 在 内 核 的 某 个 环形 缓冲 区 中 ， 并 可 使 用 trpt 程 序 进 行 检查 。TCPV2 
第 916 一 920 页 提供 了 更 为 详细 的 信息 和 使 用 了 本 选项 的 一 个 例子 。 


7.5.3 ”SO_DONTROUTE 套 接 字 选项 








本 选项 规定 外 出 的 分 组 将 绕 过 底层 协议 的 正常 路 由 机 制 。 举 例 来 
说 ， 在 IPv4 情 况 下 外 出 分 组 将 被 定 疝 到 适当 的 本 地 接口 ， 也 就 是 由 其 目 
的 地 址 的 网 络 和 子 网 部 分 确定 的 本 地 接口 。 如 果 这 样 的 本 地 接口 无 法 由 
目的 地 址 确定 《〈《 璧 如 说 目的 地 主机 不 在 一 个 点 对 点 链 路 的 另 一 端 ， 也 不 
在 一 个 共享 的 网 络 上 ) ， 那 么 返回 ENETUNREACH 错 误 。 


给 函数 send、sendto 或 sendmsg 使 用 MsG_DoNTROUTE 标 志 也 能 在 个 别 
的 数据 报 上 取得 与 本 选项 相同 的 效果 。 


路 由 守护 进程 (routed 和 gated) 经 常 使 用 本 选项 来 绕 过 路 由 表 
(路 由 表 不 正确 的 情况 下 ) ， 以 强制 将 分 组 从 特定 接口 送出 。 


7.5.4 SO _ERROR 套 接 字 选项 


当 一 个 套 接 字 上 发 生 错误 时 ， 源 目 Berkeley 的 内 核 中 的 协议 模块 将 
该 套 接 字 的 名 为 so_error 的 变量 设 为 标准 的 Unix Exxx 值 中 的 一 个 ， 我 们 
称 它 为 该 套 接 字 的 竺 处 理 错误 (pending error) 。 内 核能 够 以 下 面 两 种 
方式 之 一 立即 通知 进程 这 个 错误 。 


(1)， 如 果 进 程 阻塞 在 对 该 套 接 字 的 select 调 用 上 《〈6.3 节 ) ， 那 么 无 
论 是 检查 可 读 条 件 还 是 可 写 条 件 ，select 均 返回 并 设置 其 中 一 个 或 所 有 
两 个 条 件 。 
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(2) 如 果 进 程 使 用 信号 驱动 式 VO 模 型 (第 25 章 ) ， 那 就 给 进程 或 进 
程 组 产生 一 个 sIGIo 信 和 号。 


进程 然后 可 以 通过 访问 so_ERROR 套 接 字 选项 获取 so_error 的 值 。 
由 getsockopt 返 回 的 整数 值 束 是 该 套 接 字 的 待 处 理 错误 。so_error 随 后 
由 内 核 复 位 为 0 CTCPv2 第 547 页 ) 。 


当 进 程 调 用 read 且 没有 数据 返回 时 ， 如 果 so_error 为 非 0 值 ， 那 
么 read 返 回 -1 且 errno 被 置 为 so_error 的 值 (TCPv2 第 516 页 ) 。so_error 
随后 被 复位 为 0。 如 果 该 套 接 字 上 有 数据 在 排队 等 待 读 取 ， 那 么 read 返 
回 那 些 数据 而 不 是 返回 错误 条 件 。 如 果 在 进程 调用 write 时 so_error 为 
非 0 值 ， 那 么 write 返回 -1 且 errno 被 设 为 so_error 的 值 (TCPv228495 
页 ) 。so_error 随 后 被 复位 为 0。 

















TCPv2 第 495 页 所 示人 代码 中 有 一 个 缺陷 ， 那 儿 so_error 没 有 被 复位 为 
0， 这 在 BSD/OS 的 版 本 中 已 经 修改 了 。 一 个 套 接 字 上 出 现 的 待 处 理 错误 
一 旦 返回 给 用 户 进程 ， 它 的 so_error 就 得 复位 为 0。 


这 是 我 们 过 到 的 第 一 个 可 以 获取 但 不 能 设置 的 套 接 字 选项 。 
7.5.5 SO KEEPALIVES £^: iki 


给 一 个 TCP 套 接 字 设 置 保持 存活 (keep-alive) 选项 后 ， 如 果 2 小 时 
内 在 该 套 接 字 的 任 一 方向 上 都 没有 数据 交换 ，TCP 就 自动 给 对 端 发 送 一 
个 保持 存活 探测 分 节 (keep-alive probe) 。 这 是 一 个 对 端 必须 响应 的 
TCP 分 节 ， 它 会 导致 以 下 三 种 情况 之 一 。 


(1) 对 端 以 期 望 的 ACK 响 应 。 应 用 进程 得 不 到 通知 〈 因 为 一 切 正 
tH) 。 在 又 经 过 仍 无 动静 的 2 小 时 后 ，TCP 将 发 出 另 一 个 探测 分 节 。 


(2) 对 端 以 RST 响 应 ， 它 告知 本 端 TCP: 对 端 已 月 演 且 已 重新 启动 。 
该 套 接 字 的 待 处 理 错误 被 置 为 EcoNNRESET， 套 接 字 本 身 则 被 关闭 。 


(3) 对 端 对 保持 存活 探测 分 节 没 有 任何 啊 应 。 源 自 Berkeley 的 TCP 将 
另外 发 送 8 个 探测 分 节 ， 两 两 相隔 75 秒 ， 试 图 得 到 一 个 响应 。TCP 在 发 
出 第 一 个 探测 分 节 后 11 分 15 秒 内 吞没 有 得 到 任何 啊 应 则 放 痉 。 


HP-UX 以 处 理 数据 的 方式 来 处 理 保持 存活 探测 分 节 ， 即 在 重 传 超时 
之 后 发 送 第 二 个 探测 分 节 ， 并 把 超时 值 加 倍 ， 这 样 一 直 重 传 到 预 配置 最 
大 间隔 时 间 为 止 ， 而 最 大 间隔 时 间 的 默认 值 为 10 分 钟 。 
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如 果 根 本 没有 对 TCP 的 探测 分 节 的 响应 ， 该 套 接 字 的 待 处 理 错误 就 
被 置 为 ETIMEOUT， 套 接 字 本 身 则 被 关闭 。 然 而 如 果 该 套 接 字 收 到 一 个 
ICMP 错 误 作 为 某 个 探测 分 节 的 响应 ， 那 就 返回 相应 的 错误 (图 A-15 和 
图 A-16) ， 套 接 字 本 身 也 被 关闭 。 这 种 情形 下 一 个 常见 的 ICMP 错 误 
是 “host unreachable”( 主 机 不 可 达 ) ， 说 明 对 端 主机 可 能 并 没有 裔 溃 ， 
只 是 不 可 达 ， 这 种 情况 下 待 处 理 错 误 被 置 为 EHoSTUNREACH。 发 生 这 种 情 
况 的 原因 或 者 是 发 生 网 络 故障 ， 或 者 是 对 端 主机 已 经 月 冲 ， 而 最 后 一 跳 
的 路 由 器 也 已 经 检测 到 它 的 骨 溃 。 

















TCPv1 #232 RI TCPv2256828— 83171358 x] t FEE 3 XE DAI VE ZR [8] 
述 。 





对 于 本 选项 的 一 个 最 常见 的 问题 无 疑 是 时 间 参 数 是 否 可 改 〈 通 音 是 
想 把 2 小 时 的 无 活动 周期 改 为 短 些 的 值 ) 。TCPv1 的 附录 E 讨 论 了 如 何 给 
各 种 内 核 修改 这 些 定时 参数 ， 不 过 必须 注意 大 多 数 内 核 是 基于 整个 内 核 
维护 这 些 时 间 参 数 的 ， 而 不 是 基于 每 个 套 接 字 维护 的 ， 因 此 如 果 把 无 活 
动 周期 从 2 小 时 改 为 “ 壁 如 说 15 分 钟 ， 那 将 影响 到 该 主机 上 所 有 开启 
J 的 僚 接 字 。 然 而 这 些 问 题 通常 是 由 对 本 选项 功用 的 误解 导致 








本 选项 的 功用 是 检测 对 端 主机 是 否 朋 误 或 变 得 不 可 达 《〈 璧 如 拨号 调 
制 解 调 器 连接 掉 线 ， 电 源 发 生 故 障 ， 等 等 ) 。 如 果 对 端 进程 衣 沉 ， 它 的 
TCP 将 器 连接 发 送 一 个 FIN， 这 可 以 通过 调用 select 很 容易 地 检测 到 。 
(这 就 是 我 们 在 6.4 节 中 使 用 select 的 原因 。) 同时 也 要 认识 到 ， 即 使 对 
任何 保持 存活 探测 分 节 均 无 啊 应 〈 第 三 种 情况 ) ， 我 们 也 不 能 肯定 对 端 
主机 已 经 崩溃 ， 因 而 TCP 可 能 会 终止 一 个 有 效 连 接 。 某 个 中 间 路 由 器 前 
尝 15 分 钟 是 有 可 能 的 ， 而 这 上段 时 间 正 好 与 主机 的 11 分 15 秒 的 保持 存活 探 
测 周期 完全 重 登 。 事 实 上 本 功能 称 为 “切断 ”(make-dead) 而 不 是 “保持 
存活 ”也许 更 合适 些 ， 因 为 它 可 能 终止 存活 的 连接 。 


本 选项 一 般 由 服务 器 使 用 ， 不 过 客户 也 可 以 使 用 。 服 务 器 使 用 本 选 
项 是 因为 它们 花 大 部 分 时 间 阻 塞 在 等 待 穿越 TCP 连 接 的 输入 上 ， 也 就 是 
说 在 等 待 客户 的 请 求 。 然 而 如 果 客 户主 机 连接 掉 线 、 电 源 掉 电 或 系统 裔 
溃 ， 服 务 器 进程 将 永远 不 会 知道 ， 并 将 继续 等 待 永远 不 会 到 达 的 输入 。 
我 们 称 这 种 情况 为 半 开 连接 (half-open connection) 。 保 持 存活 选项 将 
检测 出 这 些 半 开 连 接 并 终止 它们 。 


有 些 服务 器 《特别 是 FTP 服 务 器 ) 提供 一 个 分 钟 量 级 的 应 用 层 超 
时 。 这 是 由 应 用 进程 本 身 完 成 的 ， 一 般 在 读 下 一 个 客户 命令 的 read 调 用 
附近 。 这 个 超时 与 本 套 接 字 选 项 无 关 。 这 通 种 是 清理 通 癌 不 可 达 客 户 的 
半 开 连接 的 较 好 办 法 ， 因 为 如 果 应 用 系统 目 己 实现 超时 ， 应 用 进程 就 具 
备 完全 的 控制 能 力 。 


SCTP 有 与 TCP 的 保持 存活 机 制 类 似 的 心 捕 (heartbeat〉 机 制 。 心 搏 
机 制 通 过 本 章 稍 后 讨论 的 scTP_SET_PEER_ADDR_PARAMS 套 接 字 选项 的 参数 
而 不 是 本 套 接 字 选项 控制 。 对 SCTP 套 接 字 进行 本 套 接 字 选项 的 设置 将 
被 忽略 ， 它 不 影响 SCTP 的 心 搏 机 制 。 
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图 7-6 对 一 个 TCP 连 接 的 另 一 器 发 生 茶 些 事件 时 我 们 可 以 采用 的 各 种 
检测 方法 作 了 汇总 。 当 我 们 说 “使 用 select 判 断 可 读 条 件 * 时 ， 其 舍 义 为 
调用 select 来 检测 套 接 字 是 人 否 可 读 。 








情形 xj uH POLIS 185 3: HL SR ANEELA us 
A. HG TCP IE 对 端 TCP 发 送 一 个 FIN， 这 通 运 使 用 本 端 TCE 洗 起 时 , HAE ATCP. PAE 
Pays AE | select Wi lh n] SEA HEHE Sk PW | or 098 PIE EE VEO | eO ve FIO Ie YE Oy 
来 。 册 只 本 端 TCP 发 送 另外 一 个 分 节 ， | STIMEDCUT EHZSTUNREACH 


XPDSTCPEEUELRSTHaw. WRI 
TEP I $URST 2. F5 A ELE PIU iR ES 
ACC T C TEA ISS PH a AGE 
AX “SIGRTPRIA E 








ANTEP JE CTCP MIE —TrrFIN.. RIE BPE EELK Eus KaHP Box s 
ESHER RAP line EOFUEA 
Sk IN. TCP REPPIN, lxi (ee Lah oie, 52 (E Ms. E 
f Fr (90801 | select Amik ef MRE ATA | 送 9 个 保持 专 活 探测 分 各， | OTR NEM 
UU BOERS HRB | ASS Haa AX 
被 设置 为 E32INELGJL gii UL X EROSTUNEREACH 
ERA, StS TCPRIA—SFIN, UME EN GO CAD 
伯 持 存活 选项 | setecc YAM uni Ae fpc BUE PR] 1 
aa 





17-6 ”检测 各 种 TCP 条 件 的 方法 
7.5.6 S0 LINGERf T^ HIN 


本 选项 指定 close 函 数 对 面 回 连接 的 协议 (例如 TCP 和 SCTP， 但 不 
是 UDP) 如 何 操作 。 默 认 操作 是 close 立 即 返 回 ， 但 是 如 果 有 数据 残留 
在 套 接 字 发 送 缓冲 区 中 ， 系 统 将 试 着 把 这 些 数据 发 送 给 对 端 。 


SO_LINGER 套 接 字 选项 使 得 我 们 可 以 改变 这 个 默认 设置 。 本 选项 要 
求 在 用 户 进程 与 内 核 间 传递 如 下 结构 ， 它 在 头 文件 <sys/socket .h» Pe 
X: 





struct linger { 
int 1 onoff; /* O=off, nonzero=on */ 
int 1 linger; /* linger time, POSIX specifies units as seconds */ 


}; 


对 setsockopt 的 调用 将 根据 其 中 两 个 结构 成 员 的 值 形 成 下 列 3 种 情 
Wes 


(1) 如 果 1_onoff 为 0， 那 么 关闭 本 选项 。1_1linger 的 值 被 忽略 ， 先 前 
讨论 的 TCP 默 认 设 置 生效 ， 即 close 立 即 返 回 。 
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(2 ”如 果 1_onoff 为 非 0 值 有 1_1linger 为 0， 那 么 当 close 某 个 连接 时 
TCP 将 中 止 该 连接 (CTCPv2 第 1019 一 1020 页 ) 。 这 就 是 说 TCP 将 丢弃 保 
留 在 套 接 字 发 送 缓冲 区 中 的 任何 数据 ， 并 发 送 一 个 RST 给 对 端 ， 而 没有 
通常 的 四 分 组 连接 终止 序列 (2.6 节 ) 。 我 们 将 在 图 16-21 中 给 出 这 样 的 
一 个 例子 。 这 么 一 来 避免 了 TCP 的 TIME_WAIT 状 态 ， 然 而 存在 以 下 可 
能 性 : 在 2MSL 秒 内 创建 该 连接 的 另 一 个 化 身 ， 导 致 来 自 刚 被 终止 的 连 
接 上 的 旧 的 重复 分 节 被 不 正确 地 递送 到 新 的 化 身上 〈2.7 节 ) 。 


这 种 情形 下 SCTP 也 通过 发 送 一 个 ABORT 块 给 对 端 而 中 止 性 地 关闭 
XHX C [Stewart and Xie 2001] 9.2 节 ) 。 


偶尔 张贴 在 USENET 上 的 消息 提倡 使 用 本 特性 ， 其 目的 是 为 了 避免 
TIME_WAIT 状 态 ， 并 且 即 使 在 跟 某 个 服务 器 的 众所周知 端口 的 连接 仍 
在 使 用 的 情况 下 也 能 重启 其 监听 服务 器 。 这 么 做 万 万 不 可 ， 它 可 能 导致 
数据 被 破坏 ， 详 情 见 RFC 1337 [Braden ] 。 作 为 蔡 代 ， 总 是 在 服务 器 
程序 中 调用 bind 前 使 用 so_REUSEADDR 套 接 字 选项 ， 我 们 马上 会 讲述 到 。 
TIME_WAIT 状 态 是 我 们 的 朋友 ， 它 是 有 助 于 我 们 的 (也 就 是 说 ， 它 让 
旧 的 重复 分 节 在 网 络 中 超时 消失 )〉 。 不 要 试图 避免 这 个 状态 ， 而 是 应 该 


Josue (Q7. 


个 别 环 境 下 使 用 本 特性 执行 中 止 性 的 关闭 是 合理 的 。 例 子 之 一 是 因 
试图 同 某 个 停滞 的 终端 端口 递送 数据 而 可 能 永远 滞留 在 CLOSE WAIT 
状态 的 一 个 RS-232 终 端 服务 器 ， 要 是 它 得 到 一 个 RST 以 丢弃 待 处 理 的 数 
据 ， 它 会 适当 地 复位 那个 停滞 的 终端 端口 。 


(3) 如 果 1_onoff 为 非 0 值 且 1_lLinger 也 为 非 0 值 ， 那 么 当 套 接 字 关闭 
时 内 核 将 拖延 一 段 时 间 。 这 就 是 说 如 果 在 套 接 字 发 送 缓冲 区 中 仍 残留 有 
数据 ， 那 么 进程 将 被 投入 睡眠 ， 直 到 (a) 所 有 数据 都 已 发 送 完 且 均 被 
对 方 确认 或 Cb) 延 清 时 间 到 。 如 果 套 接 字 被 设置 为 非 阻 塞 型 〈 第 16 
章 ) ， 那 么 它 将 不 等 待 close 完 成 ， 即 使 延 清 时 间 为 非 0 也 是 如 此 。 当 使 
用 so_LINGER 选 项 的 这 个 特性 时 ， 应 用 进程 检查 close 的 返回 值 是 非常 重 
要 的 ， 因 为 如 果 在 数据 发 送 完 并 被 确认 前 延 清 时 间 到 的 话 ，close 将 返 
回 EwouLDBLOCK 错 误 ， 且 套 接 字 发 送 缓冲 区 中 的 任何 残留 数据 都 被 丢 


ss 
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现在 我 们 需要 看 看 ， 对 于 已 讨论 的 各 种 情况 ， 套 接 字 上 的 close 确 
切 来 说 是 什么 时 候 返 回 的 。 我 们 假设 客户 将 数据 写 到 套 接 字 上 ， 然 后 调 
用 close。 图 7-7 给 出 了 默认 情况 。 


AA 


write 
close 
closelMl'| 





* 如 和 FIN 的 确认 一- 
_ ee 应 用 进程 读 排 队 的 数据 利 FIN 


ENS 二 一 一 一 Cc aga 


—— FUB RIFINIS i. 


一 一 





图 7-7 close 的 默认 操作 : 立即 返回 


我 们 假设 在 客户 数据 到 达 时 ， 服 务 器 暂时 处 于 忙 状态 。 那 么 这 些 数 
据 由 TCP 加 入 服务 器 的 套 接 字 接收 缓冲 区 中 。 类 似 地 ， 下 一 个 分 三 即 客 
户 的 FIN 也 加 入 该 套 接 字 接 收 缓冲 区 中 《不 论 实 现 以 何 种 方法 记录 该 连 
接 上 已 收 到 一 个 FIN 这 一 事件 ) 。 默 认 情 况 下 客户 的 close 立 即 返回 。 如 
图 所 示 ， 客 户 的 close 可 能 在 服务 器 读 套 接 字 接收 缓 区 中 的 剩余 数据 之 
前 就 返回 。 对 于 服务 妖 主机 来 说 ， 在 服务 器 应 用 进程 读 这 些 剩余 数据 之 
前 就 骨 湿 是 完全 可 能 的 ， 而 且 客 户 应 用 进程 永远 不 会 知道 


客户 可 以 设置 So_LITNGER 套 接 字 选项 ， 指 定 一 个 正 的 延 澡 时 间 。 这 
种 情况 下 客户 的 close 要 到 它 的 数据 和 FIN 已 被 服务 器 主机 的 TCP 确 认 后 
才 返 回 ， 如 图 7-8 所 示 。 











服务 器 


HT CP HERA Ze 
s RAN | i 
— Bic SE de IRAE ROPIN 


cloge 


一 一 





——— rN 


图 7-8 设置 so_LINGER 套 接 字 选项 上 且 1_1inger 为 正 值 时 的 close 
204 





然而 我 们 仍然 有 与 图 7-7 一 样 的 问题 : 在 服务 器 应 用 进程 读 剩余 数 
da CHU, ARS as EWA Hei, FFA VERE Ae Ae. BE 
糕 的 是 ， 图 7-9 展 示 了 当 给 so_LINGER 选 项 设置 偏 低 的 延 滞 时 间 值 时 可 能 
发 生 的 现象 。 








closejR||-1 . Brrno 
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图 7-9 设置 so_LINGER 套 接 字 选项 且 1_1inger 为 偏 小 正 值 时 的 close 


这 里 有 一 个 基本 原则 : 设置 so_LINGER 套 接 字 选 项 后 ，close 的 成 功 
返回 只 是 告诉 我 们 先前 发 送 的 数据 (和 FIN) 已 由 对 端 TCP 确 认 ， 而 不 
能 告诉 我 们 对 端 应 用 进程 是 否 已 读 取 数据 。 如 果 不 设置 该 套 接 字 选项 
那么 我 们 连 对 端 TCP 是 否 确认 了 数据 都 不 知道 。 


让 客户 知道 服务 器 已 读 取 其 数据 的 一 个 方法 是 改 为 调 


用 shutdown 〈 并 设置 它 的 第 二 个 参数 为 ShuT_WR) 而 不 是 调用 close， 并 
等 待 对 端 close 连 接 的 当地 端 〈 服 务 器 端 ) ， 如 图 7-10 所 示 。 






客户 Hi SS us 
write Hehe 
shutdown d T RR FIN TCP HED xt 
readh # | NE 


Mie XD UNIS] 一 一 一 
—- = 吝 几 进程 读 排队 的 数据 和 TFTN 


FIN CE closz 
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r 一 -一 —— — RS MFIN BY Br. 


图 7-10 ”用 shutdown 来 获知 对 方 已 接收 数据 
比较 本 图 与 图 7-7 及 图 7-8 我 们 看 到 ， 当 关闭 连接 的 本 地 端 〈 客 户 
端 ) 时 ， 根 据 所 调用 的 函数 (close 或 shutdown) 以 及 是 否 设置 了 
SO_LINGER 套 接 字 选项 ， 可 在 以 下 3 个 不 同 的 时 机 返回 。 
(1) close 立 即 返 回 ， 根 本 不 等 待 〈 默 认 状 况 ， 图 7-7) 。 


(2) close 一 直 拖 延 到 接收 了 对 于 客户 端 FIN 的 ACK 才 返回 《图 7- 
8) 。 


(3) 后 跟 一 个 read 调 用 的 shutdown 一 直 等 到 接收 了 对 端的 FIN 才 返回 
(图 7-10) 。 
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获知 对 端 应 用 进程 已 读 取 我 们 的 数据 的 另外 一 个 方法 是 使 用 应 用 级 
确认 Capplication-level acknowledge， 人 简称 应 用 ACK (application 


ACK) ) 。 在 下 面 的 例子 中 ， 客 户 在 问 服 务 器 发 送 数据 后 调用 read 来 读 
取 1 个 字 节 的 数据 : 
char ack; 


Write(sockfd, data, nbytes); /* data from client to server */ 
n = Read(sockfd, &ack, 1); /* wait for application-level ACK */ 


RA ae BER EB 7 RE Jes A I8 1 5878 IINE A ACK: 


nbytes - Read(sockfd, buff, sizeof(buff)); /* data from client */ 
/* server verifies it received correct 
amount of data from the client */ 
Write(sockfd, "", 1); /* server's ACK back to client */ 


当 客 户 的 read 返 回 时 ， 我 们 可 以 保证 服务 器 进程 已 读 完 了 我 们 所 发 
送 的 所 有 数据 。《 假 设 服务 需 知 道 客 户 要 发 送 多 少数 据 ， 或 者 由 应 用 程 
序 定 义 了 某 个 记录 结束 标志 ， 不 过 这 儿 没 有 给 出 。) 本 例子 的 应 用 级 
ACK 是 值 为 0 的 1 个 字 节 ， 不 过 该 字 市 的 内 容 可 以 用 来 从 服务 需 癌 客户 指 
示 其 他 的 条 件 。 图 7-11 展 示 了 可 能 的 分 组 交换 过 程 。 
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图 7-11 应 用 ACK 
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图 7-12 汇 总 了 对 shutdown 的 两 种 可 能 调用 和 对 close 的 三 种 可 能 调 
用 ， 以 及 它们 对 TCP 套 接 字 的 影响 。 
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| close, l onoff = 0 
GRAL 








close, 1 onoff = 1 
1l linger !- 6 








7-12 ”shutdown 和 so_LINGER 各 种 情况 的 总 结 
7.5.7 ”SO_00BINLINE 套 接 字 选项 


当 本 选项 开局 时 ， 带 外 数据 将 被 留 在 正常 的 输入 队列 中 《 即 在 线 留 
f£) 。 这 种 情况 下 接收 函数 的 Mse_ooB 标 志 不 能 用 来 读 带 外 数据 。 我 们 
将 在 第 24 章 中 详细 讨论 带 外 数据 。 


7.5.8 So_RcvBUF 和 So_SNDBUF 套 接 字 选项 


每 个 套 接 字 都 有 一 个 发 送 缓冲 区 和 一 个 接收 缓冲 区 。 我 们 在 图 2- 
15、 图 2-16 和 图 2-17 中 分 别 描述 了 TCP、UDP 和 SCTP 套 接 字 中 发 送 缓冲 
区 的 操作 。 


接收 缓冲 区 被 TCP、UDP 和 SCTP 用 来 保存 接收 到 的 数据 ， 直 到 由 
应 用 进程 来 读 取 。 对 于 TCP 来 说 ， 套 接 字 接收 缓冲 区 中 可 用 空间 的 大 小 
限定 了 TCP 通 告 对 端的 窗口 大 小 。TCP 套 接 字 接收 缓冲 区 不 可 能 溢出 ， 
因为 不 允许 对 端 发 出 超过 本 端 所 通告 窗口 大 小 的 数据 。 这 就 是 TCP 的 流 
量 控制 ， 如 果 对 端 无 视窗 口 大 小 而 发 出 了 超过 该 窗口 大 小 的 数据 ， 本 端 
TCP 将 丢弃 它们 。 然 而 对 于 UDP 来 说 ， 当 接收 到 的 数据 报 装 不 进 套 接 字 
接收 缓冲 区 时 ， 该 数据 报 就 被 丢弃 。 回 顾 一 下 ，UDP 是 没有 流量 控制 
HJ: 较 快 的 发 送 端 可 以 很 容易 地 淹没 较 慢 的 接收 端 ， 导 致 接收 端的 UDP 
丢弃 数据 报 ， 我 们 在 8.13 节 将 展示 这 一 点 。 事 实 上 较 快 的 发 送 端 甚至 可 























以 淹没 本 机 的 网 络 接口 ， 导 致 数据 报 被 本 机 丢弃 。 
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这 两 个 套 接 字 选项 允许 我 们 改变 这 两 个 缓冲 区 的 默认 大 小 。 对 于 不 
同 的 实现 ， 默 认 值 的 大 小 可 以 有 很 大 的 差别 。 较 早期 的 源 自 Berkeley 的 
实现 将 TCP 发 送 和 接收 缓冲 区 的 大 小 均 默 认为 
4 096 字 节 ， 而 较 新 的 系统 使 用 较 大 的 值 ， 可 以 是 8 192—61 440 字 节 间 
的 任何 值 。 如 果 主 机 支持 NFS， 那 么 UDP 发 送 缓冲 区 的 大 小 经 常 默认 为 
9 000 字 节 左 右 的 一 个 值 ， 而 UDP 接 收 缓 冲 区 的 大 小 则 经 常 默认 为 40 000 
字 节 左右 的 一 个 值 。 


当 设 置 TCP 套 接 字 接收 缓冲 区 的 大 小 时 ， 函 数 调 用 的 顺序 很 重要 。 

这 是 因为 TCP 的 窗口 规模 选项 (2.6 节 ) 是 在 建立 连接 时 用 SYN 分 节 与 对 
端 互 换 得 到 的 。 对 于 客户 ， 这 意味 着 So_RcvBUF 选 项 必须 在 调用 connect 
之 前 设置 ， 对 于 服务 器 ， 这 意味 着 该 选项 必须 在 调用 1isten 之 前 给 监听 
套 接 字 设 置 。 给 已 连接 套 接 字 设置 该 选项 对 于 可 能 存在 的 窗口 规模 选项 
没有 任何 影响 ， 因 为 accept 直 到 TCP 的 三 路 握手 完成 才 会 创建 并 返回 已 
连接 套 接 字 。 这 就 是 必须 给 监听 套 接 字 设置 本 选项 的 原因 。 CEBSCPc 
冲 区 的 大 小 总 是 由 新 创建 的 已 连接 套 接 字 从 监听 套 接 字 继 承 而 来 : 
TCPv2 第 462 一 463 页 ) 。 


TCP 套 接 字 缓冲 区 的 大 小 至 少 应 该 是 相应 连接 的 MSS 值 的 四 倍 。 对 
于 单 癌 数据 传输 《〈 璧 如 单个 方向 的 文件 传送 ) ， 当 我 们 说 “ 套 接 字 缓冲 
区 大 小 * 时 ， 我 们 指 的 是 发 送 端 主 机 上 的 套 接 字 发 送 缓冲 区 大 小 和 接收 
端 主机 上 的 套 接 字 接收 缓冲 区 大 小 。 对 于 双 回 数据 传输 ， 我 们 在 发 送 端 
指 的 是 收发 两 个 套 接 字 缓冲 区 的 大 小 ， 在 接收 端 也 是 指 收发 两 个 套 接 字 
缓冲 区 的 大 小 。 典 型 的 缓冲 区 大 小 默认 值 是 8192 字 节 或 更 大 ， 典 型 的 
MSS 值 为 512 或 1460， 这 些 要 求 一 般 总 能 被 满足 。 


TCP 套 接 字 缓冲 区 的 大 小 至 少 为 MSS 值 的 4 倍 这 一 点 的 依据 是 TCP 快 
速 恢 复 算 法 的 工作 机 制 。TCP 发 送 端 使 用 3 个 重复 的 确认 来 检测 某 个 分 
节 是 否 丢 失 (RFC 2581 [ Allman, Paxson, and Stevens 1999] ) 。 发 现 某 
个 分 节 丢 失 后 ， 接 收 端 将 给 新 收 到 的 每 个 分 节 发 送 一 个 重复 的 确认 。 如 
果 窗 口 大 小 不 足以 存放 4 个 这 样 的 分 节 ， 那 就 不 可 能 连 发 三 个 重复 的 确 
认 ， 从 而 无 法 激活 快速 恢复 算法 。 


为 避免 潜在 的 缓冲 区 空间 浪费 ，TCP 套 接 字 缓 冲 区 大 小 还 必须 是 相 
































应 连接 的 MSS 值 的 偶数 倍 。 有 些 实现 蔡 应 用 进程 处 理 这 个 细节 问题 ， 在 
ERENT Jah] LABEL RK AZ) 〈TCPv2 第 902 页 ) 。 这 是 在 建 
立 连 接 之 前 设置 这 两 个 套 接 字 选 项 的 另外 一 个 原因 。 使 用 默认 的 4.4BSD 
大 小 8 192 举 例 来 说 ， 假 设 以 太 网 的 MSS 为 1 460， 在 连接 建立 时 收发 两 
个 套 接 字 绥 冲 区 的 大 小 将 被 向 上 人 铭 入 成 8 760 (6x1 460) 。 这 个 要 求 并 
; 只 不 过 套 接 字 缓冲 区 中 MSS 整 数 倍 大 小 以 外 的 空间 不 会 被 使 


”在 设置 套 接 字 缓冲 区 大 小 时 为 一 个 需 考 虑 的 问题 涉及 性 能 。 图 7-13 
展示 了 两 个 并 点 之 间 容 量 为 8 个 分 节 的 一 个 TCP 连 接 (我们 称 其 为 管 
道 ) 。 





WR ds 





图 7-13 ”8 个 分 节 容 量 的 TCP 连 接 〈 管 道 ) 








我 们 在 项 部 给 出 4 个 数据 分 节 ， 在 撒 部 给 出 4 个 ACK。 即 使 管道 中 只 
有 4 个 数据 分 节 ， 客 户 也 必须 有 至 少 8 个 分 节 容 量 的 发 送 缓冲 区 ， 因 为 客 
户 TCP 必 须 为 每 个 分 节 保 留 一 个 副本 ， 直 到 接收 到 来 目 服务 器 的 相应 
ACK. 


这 里 我 们 忽略 了 一 些 细节 。 首 先 ，TCP 的 慢 启 动 算法 限制 了 在 一 个 
空闲 连接 上 最 初 发 送 分 节 的 速度 。 其 次 ，TCP 通 常 每 两 个 分 节 确 认 一 
次 ， 而 不 是 我 们 所 示 的 每 个 分 节 确 认 一 次 。 所 有 这 些 细 节 在 TCPv1 的 第 
20 章 和 第 24 章 均 有 阐述 。 


理解 的 重点 在 于 全 双 工 管道 的 概念 、 它 的 容量 以 及 它们 如 何 关 系 到 
连接 两 端的 套 接 字 缓冲 区 大 小 。 管 道 的 容量 称 为 带宽 一 延迟 积 
(bandwidth-delay product) ， 它 通过 将 带宽 (bius) AIRTT CEP) 相 
乘 ， 再 将 结果 由 位 转换 为 字 节 计算 得 到 。 其 中 RTT 可 以 很 容易 地 使 
用 ping 程 序 测 得 。 


带宽 是 相应 于 两 个 端点 之 间 最 慢 链 路 的 值 ， 某 种 程度 上 是 已 知 的 。 
举例 来 说 ，RTT 为 60 ms 的 一 条 T1 链 路 (1 536 000 bit/s) 的 带宽 一 延迟 
积 为 11 520 字 节 。 如 果 套 接 字 绥 冲 区 大 小 小 于 该 值 ， 管 道 将 不 会 处 于 满 














状态 ， 性 能 也 将 低 于 期 望 值 。 当 带宽 变 大 (如 45 “Mbits 的 T3 链 路 ) 或 
RTT 变 大 (如 RTT 约 为 500 ms 的 卫星 链 路 ) 时 ， 套 接 字 缓冲 区 也 需要 增 
长 。 当 带宽 一 延迟 积 超过 TCP 的 最 大 正常 窗口 大 小 (65 535 字 节 ) 时 ， 
两 端 就 得 设置 我 们 在 2.6 节 提 到 过 的 TCP 长 胖 管道 《long fat pipe) 选 
Wo 








大 多 数 实现 对 套 接 字 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 都 设 有 一 个 上 
限 ， 有 时 这 个 上 限 可 由 管理 员 进 行 修 改 。 较 早期 的 源 自 Berkeley 的 实现 
有 一 个 约 为 52 ”000 字 节 的 硬 上 限 ， 然 而 较 新 的 实现 将 默认 值 增加 为 256 
000 字 节 甚 至 更 大 ， 而 且 通 常 可 以 由 管理 员 继 续 增 加 。 不 幸 的 是 ， 对 于 
应 用 程序 来 说 ， 没 有 一 个 简单 的 方法 来 确定 这 个 极限 。POSIX 定 义 了 
fpathconf 函 数 〈 大 多 数 实 现 都 文 持 ) ， 使 用 _pc_sock_MAXBUF 常 值 作为 
它 的 第 二 个 参数 ， 我 们 就 能 获取 套 接 字 绥 冲 区 的 最 大 大 小 。 当 然 应 用 程 
序 也 可 以 先 尝 试 把 套 接 字 缓冲 区 设置 成 预想 的 大 小 ， 若 失败 则 减 半 继 续 
尝试 ， 直 到 成 功 。 最 后 我 们 指出 ， 应 用 程序 在 把 套 接 字 缓 冲 区 的 大 小 设 
置 成 某 个 预 配 置 的 “大 ” 值 时 ， 应 该 确保 这 样 做 不 会 反而 让 缓冲 区 变 小 
ee 














7.5.9 SO RCVLOWAT#ISO SNDLOWAT E fe 3c Ji 


每 个 套 接 字 还 有 一 个 接收 低 水 位 标记 和 一 个 发 送 低 水 位 标记 。 它 们 
由 select 函 数 使 用 ， 如 6.3 节 所 述 。 这 两 个 僚 接 字 选 项 允许 我 们 修改 这 两 
个 低 水 位 标记 。 


接收 低 水 位 标记 是 让 select 返 回 “ 可 读 ” 时 套 接 字 接收 缓冲 区 中 所 需 
的 数据 量 。 对 于 TCP、UDP 和 SCTP 套 接 字 ， 其 默认 值 为 1。 发 送 低 水 位 
标记 是 让 select 返 回 “ 可 写 ” 时 套 接 字 发 送 缓冲 区 中 所 需 的 可 用 空间 。 对 
于 TCP 套 接 字 ， 其 默认 值 通常 为 2048。 如 6.3 节 所 述 ，UDP 也 使 用 发 送 低 
水 位 标记 ， 然 而 由 于 UDP 套 接 字 的 发 送 缓冲 区 中 可 用 空间 的 字 节 数 从 不 
改变 《因为 UDP 并 不 为 由 应 用 进程 传递 给 它 的 数据 报 保留 副本 ) ， 只 要 
一 个 UDP 套 接 字 的 发 送 缓冲 区 大 小 大 于 该 套 接 字 的 低 水 位 标记 ， 该 UDP 
套 接 字 就 总 是 可 写 。 回 顾 图 2-16， 我 们 记得 UDP 并 没有 发 送 缓冲 区 ， 而 
只 有 发 送 缓冲 区 大 小 这 个 属性 。 
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7.5.10 SO RCVTIMEOfSO _SNDTIME0 套 接 字 选项 


这 两 个 选项 允许 我 们 给 套 接 字 的 接收 和 发 送 设 置 一 个 超时 值 。 注 
意 ， 访 问 它们 的 getsockopt 和 setsockopt 了 浮 数 的 参数 是 指 问 timeval 结 构 
的 指针 ， 与 select 所 用 参数 相同 (6.3 节 ) 。 这 可 让 我 们 用 秒 数 和 微 秒 数 
来 规定 超时 。 我 们 通过 设置 其 值 为 0 和 0s 来 禁止 超时 。 默 认 情 况 下 这 两 
个 超时 都 是 禁止 的 。 

接收 超时 影响 5 个 输入 函数 : read、readv、recv、recvfrom 和 
recvmsg。 发 送 超时 影响 5 个 输出 图 数 : write、writev、send、sendto 和 
sendmsg。 我 们 将 在 14.2 节 详细 讨论 套 接 字 超 时 。 


这 两 个 套 接 字 选项 以 及 套 接 字 接 收 超 时 和 发 送 超时 的 继承 概念 是 在 
4.3BSD Reno 中 增加 的 。 


在 源 自 Berkeley 的 实现 中 ， 这 两 个 值 实际 上 用 于 实现 针对 读 或 写 系 


统 调用 的 休止 状态 定时 器 (inactivity timer) ， 而 不 是 不 论 状态 的 绝对 定 
时 器 (absolute timer) 。TCPv2 第 496 一 516 页 对 此 作 了 详细 讨论 。 


7.5.11 SO_REUSEADDR 和 So_REUSEPORT 套 接 字 选项 

S0_REUSEADDR 套 接 字 选项 能 起 到 以 下 4 个 不 同 的 功用 。 

(1) So_REUSEADDR 人 允许 启动 一 个 监听 服务 器 并 捆绑 其 众所周知 端口 ， 
即使 以 前 建立 的 将 该 端口 用 作 它 们 的 本 地 端口 的 连接 仍 存在 。 这 个 条 件 
通常 是 这 样 碰 到 的 : 

a) 启动 一 个 监听 服务 器 ; 

b) 连接 请 求 到 达 ， 派 生 一 个 子 进程 来 处 理 这 个 客户 ; 

c) 监听 服务 器 终止 ， 但 子 进程 继续 为 现 有 连接 上 的 客户 提供 服务 ; 

d) 重 局 监听 服务 器 。 

默认 情况 下 ， 当 监听 服务 器 在 步骤 qd 通过 调用 socket、bind 和 1isten 


重新 局 动 时 ， 由 于 它 试 图 捆绑 一 个 现 有 连接 〈 即 正 由 早先 派生 的 那个 子 
进程 处 理 着 的 连接 ) 上 的 端口 ， 从 而 bind 调 用 会 失败 。 但 是 如 果 该 服务 








器 在 socket 和 bind 两 个 调用 之 间 设 置 了 so_REUSEADDR 套 接 字 选项 ， 那 
么 bind 将 成 功 。 所 有 TCP 服 务 器 都 应 该 指定 本 套 接 字 选 项 ， 以 允许 服务 
器 在 这 种 情形 下 被 重新 启动 。 


这 种 情形 是 USENET 中 问 得 最 频繁 的 问题 之 一 。 
210 


(2) SO_REUSEADDR 人 允许 在 同一 端口 上 启动 同一 服务 器 的 多 个 实例 ， 只 
要 每 个 实例 捆绑 一 个 不 同 的 本 地 IP 地 址 即 可 。 这 对 于 使 用 IP 别 名 技术 
(A.4 节 ) 托管 多 个 HTTP 服 务 器 的 网 点 (site〉 来 说 是 很 常见 的 。 举 例 
来 说 ， 假 设 本 地 主机 的 主 IP 地 址 为 198.69.10.2， 不 过 它 有 两 个 别名 : 
198.69.10.128 和 198.69.10.129。 在 其 上 启动 三 个 HTTP 服 务 器 。 第 一 个 
HTTP 服 务 器 以 本 地 通 配 IP 地 址 INADDR_ANY 和 本 地 端口 号 80 (HTTP 的 众 
所 周知 端口 ) 调用 bind。 第 二 个 HTTP 服 务 器 以 本 地 IP 地 址 198.69.10.128 
和 本 地 端口 号 80 调 用 bind。 这 次 调用 bind 将 失败 ， 除 非 在 调用 前 设置 了 
SO_REUSEADDR 套 接 字 选项 。 第 三 个 HTTP 服 务 器 以 本 地 IP 地 址 
198.69.10.129 和 本 地 端口 号 80 调 用 bind。 这 次 调用 bind 成 功 的 先决 条 件 
同样 是 预先 设置 So_REUSEADDR。 假 设 So_REUSEADDR 均 已 设置 ， 从 而 三 个 
服务 器 都 启动 了 ， 目 的 下地 址 为 198.69.10.128、 目 的 端口 号 为 80 的 外 来 
TCP 连 接 请 求 将 被 递送 给 第 二 个 服务 器 ， 目 的 耳 地 址 为 198.69.10.129、 
目的 端口 号 为 80 的 外 来 请 求 将 被 递送 给 第 三 个 服务 器 ， 目 的 端口 号 为 80 
的 所 有 其 他 TCP 连 接 请 求 将 都 递送 给 第 一 个 服务 器 。 这 个 “默认 ”服务 器 
处 理 目 的 地 址 为 198.69.10.2 或 该 主机 已 配置 的 任何 其 他 IP 别 名 的 请 求 。 
这 里 通 配 地 址 的 意思 就 是 “没有 更 好 的 ( 即 更 为 明确 的 ) 匹配 的 任何 地 
址 *。 注 意 ， 人 允许 某 个 给 定 服务 存在 多 个 服务 器 的 情形 在 服务 器 总 是 设 
置 so_REUSEADDR 套 接 字 选项 时 是 自动 处 理 的 (我 们 建议 设置 这 个 选 
Ia 


对 于 TCP， 我 们 绝 不 可 能 启动 捆绑 相同 IP 地 址 和 相同 端口 号 的 多 个 
服务 器 : 这 是 完全 重复 的 捆绑 (completely duplicate binding) 。 也 就 是 
说 ， 我 们 不 可 能 在 启动 绑 定 198.69.10.2 和 端口 80 的 服务 器 后 ， 再 启动 同 
样 捆绑 198.69.10.2 和 端口 80 的 男 一 个 服务 器 ， 即 使 我 们 给 第 二 个 服务 器 
设置 了 so_REUSEADDR 套 接 字 选项 也 不 管用 。 


为 了 安全 起 见 ， 有 些 操作 系统 不 允许 对 已 经 绑 定 了 通 配 地 址 的 端口 
再 捆绑 任何 “更 为 明确 的 ”地址 ， 也 就 是 说 不 论 是 否 预先 设 
置 So_REUSEADDR， 上 述 例子 中 的 系列 bind 调 用 都 会 失败 。 在 这 样 的 系统 














上 ， 执 行 通 配 地 址 捆绑 的 服务 器 进程 必须 最 后 一 个 启动 。 这 么 做 是 为 了 
防止 把 恶意 的 服务 器 捆绑 到 某 个 系统 服务 正在 使 用 的 了 地 址 和 端口 上 ， 
和 
寺 权 端口 。 


(3) So_REUSEADDR 人 允许 单个 进程 捆绑 同一 问 口 到 多 个 套 接 字 上 ， 只 要 
每 次 捆绑 指定 不 同 的 本 地 IP 地 址 即 可 。 在 不 支持 IP_RECVDSTADDR 套 接 字 
选项 的 系统 上 ， 这 对 于 要 求知 道 客 户 请 求 的 目的 IP 地 址 的 UDP 服 务 器 来 
说 是 非常 普 裔 的 。TCP 服 务 器 通常 不 使 用 这 种 方法 ， 因 为 TCP 服 务 器 在 
建立 连接 后 总 是 能 够 通过 调用 getsockname 来 确定 客户 请 求 的 目的 IP 地 
址 。 然 而 对 于 希望 在 一 个 多 目的 主机 的 若干 个 〈 而 非 全 部 ) 本 地 地 址 上 
服务 连接 的 TCP 服 务 器 进程 来 说 ， 仍 需 采 用 这 种 方法 。 


211 


(4) So_REUSEADDR 人 允许 完全 重复 的 捆绑 : 当 一 个 卫 地 址 和 端口 已 绑 定 
到 某 个 套 接 字 上 时 ， 如 果 传 输 协议 文 持 ， 同 样 的 下地 址 和 端口 还 可 以 捆 
绑 到 另 一 个 套 接 字 上 。 一 般 来 说 ， 本 特性 仅 文 持 UDP 套 接 字 。 


本 特性 用 于 多 播 时 ， 人 允许 在 同一 个 主机 上 同时 运行 同一 个 应 用 程序 
的 多 个 副本 。 当 一 个 UDP 数 据 报 需 由 这 些 重复 捆绑 套 接 字 中 的 一 个 接收 
时 ， 所 用 规则 为 ， 如果 该 数据 报 的 目的 地 址 是 一 个 广播 地 址 或 多 播 地 
址 ， 那 就 给 每 个 匹配 的 套 接 字 递送 一 个 该 数据 报 的 副本 ; 但 是 如 果 该 数 
据 报 的 目的 地 址 是 一 个 单 播 地 址 ， 那 么 它 只 递送 给 单个 套 接 字 。 在 单 播 
数据 报 情 况 下 ， 如 果 有 多 个 套 接 字 匹配 该 数据 报 ， 那 么 该 选择 由 哪个 套 
接 字 接收 它 取决 于 实现 。TCPv2 第 777 一 779 页 详细 讨论 了 本 特性 。 我 们 
将 在 第 20 章 和 第 21 章 中 详细 讨论 广播 和 多 播 。 


习题 7.5 和 习题 7.6 给 出 了 本 套 接 字 选 项 的 几 个 例子 。 

4.4BSD 随 多 播 支持 的 添加 引入 了 so_REUSEPORT 这 个 套 接 字 选 项 。 它 
并 未 在 So_REUSEADDR 上 重 载 所 需 多 播 语 义 〈 即 允许 完全 重复 的 捆绑 ) ， 
而 是 给 So_REUSEPORT 引 入 了 以 下 语义 : 


(1) 本 选项 允许 完全 重复 的 捆绑 ， 不 过 只 有 在 想 要 捆绑 同一 耳 地 址 
和 端口 的 每 个 套 接 字 都 指定 了 本 套 接 字 选 项 才 行 ; 


(2) 如 果 被 捆绑 的 了 地址 是 一 个 多 播 地 址 ， 那 么 So_REUSEADDR 和 


























SO_REUSEPORT 被 认为 是 等 效 的 〈TCPv2 第 731 页 ) 。 


本 套 接 字 选 项 的 问题 在 于 并 非 所 有 系统 都 支持 它 。 在 那些 不 支持 本 
选项 但 是 支持 多 播 的 系统 上 上， 我们 改 用 so_REUSEADDR 以 允许 合理 的 完全 
重复 的 捆绑 (也 就 是 同一 时 刻 在 同一 个 主机 上 可 运行 多 次 有 旦 期 待 接收 广 
播 或 多 播 数 据 报 的 UDP 服 务 器 〉。 


我 们 以 下 面 的 建议 来 总 结对 这 些 套 接 字 选 项 的 讨论 : 


(1) 在 所 有 TCP 服 务 器 程序 中 ， 在 调用 bind 之 前 设置 S0_REUSEADDR 仁 
接 字 选项 ; 


(2) 当 编 写 一 个 可 在 同一 时 刻 在 同一 主机 上 运行 多 次 的 多 播 应 用 程 
序 时 ， 设 置 so_REUSEADDR 套 接 字 选 项 ， 并 将 所 参加 多 播 组 的 地 址 作为 本 
地 IP 地 址 捆绑 。 


TCPv2 第 22 章 对 这 两 个 套 接 字 选 项 作 了 详细 的 讨论 。 
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SO_REUSEADDR 有 一 个 潜在 的 安全 问题 。 举 例 来 襄 ， 假 设 存在 一 个 绑 
定 了 通 配 地 址 和 端口 5555 的 套 接 字 ， 如 果 指 定 sSo_REUSEADDR， 我 们 束 可 
以 把 相同 的 端口 捆绑 到 不 同 的 IP 地 址 上 ， 壁 如 说 就 是 所 在 主机 的 主 IP 地 
址 。 此 后 目的 地 为 端口 5555 及 新 绑 定 卫 地 址 的 数据 报 将 被 递送 到 新 的 套 
接 字 ， 而 不 是 递送 到 绑 定 了 通 配 地 址 的 已 有 套 接 字 。 这 些 数 据 报 可 以 是 
TCP 的 SYN 分 节 、SCTP 的 INIT 块 或 UDP 数据 报 。 (习题 11.9 展 示 了 UDP 
的 这 个 特性 。) 对 于 大 多 数 众 所 周知 的 服务 如 HITP、FTP 和 Telnet 来 
说 ， 这 不 成 问题 ， 因 为 这 些 服务 器 绑 定 的 是 保留 端口 。 这 种 情况 下 ， 后 
来 的 试图 捆绑 这 些 端口 更 为 明确 的 实例 (也 就 是 盗用 这 些 端口 的 任何 
进程 都 需要 超级 用 户 特权 。 然 而 NFES 可 能 是 一 个 问题 ， 因 为 它 的 通常 端 
O (2049) 并 不 是 保留 端口 。 


套 接 字 API 的 一 个 底层 问题 是 : 套 接 字 对 的 设置 由 两 个 函数 调用 
(bind 和 connect〉 而 不 是 一 个 来 完成 。 [LTorek 1994] 为 解决 本 问题 提 
议 了 如 下 单个 函数 : 
int bind connect listen(int sockfd, 
const struct sockaddr *laddr, int laddrlen, 


const struct sockaddr *faddr, int faddrlen, 
int listen); 














A:rRladdri8 ke AJ EPA HERZ Hig OS, faddrts xe ^ HBIP HALL RIP 
地 端口 号 ，listen 指 定 一 个 客户 0) 或 一 个 服务 器 〈 非 0， 与 1isten 函 数 
的 backlog 参 数 相 同 〉。 这 样 的 话 ，bind 将 是 一 个 用 空 指针 的 faddr 和 为 0 
的 名 adrlen 来 调用 该 函数 的 库 函 数 ，connect 将 是 一 个 用 空 指 针 的 jaddr 和 
为 0 的 Jaddrlen 来 调用 该 函数 的 库 函 数 。 有 些 应 用 程序 〈 特 别 是 TFTP ) 
需要 同时 指定 会 话 的 本 地 地 址 对 和 外 地 地 址 对 ， 它 们 可 以 直接 调 
用 bind_connect_listen。 有 了 这 样 的 一 个 函数 就 不 需要 so_REUSEADDR 
了 ， 除 非 面 对 明确 要 求 允许 完全 重复 地 捆绑 相同 了 地 址 和 端口 的 多 播 
UDP 服务 器 。 本 函数 的 另 一 个 好 处 是 : TCP 服 务 器 可 以 限定 自己 仅 为 来 
目 特定 IP 地 址 和 端口 的 连接 请 求 提供 服务 。 这 是 RFC 793 [Postel ] 规 
定 的 ， 但 是 对 于 现 有 的 套 接 字 API 来 说 却 是 不 可 能 实现 的 。 


7.5.12 ”SsS0_TYPE 套 接 字 选项 


本 选项 返回 套 接 字 的 类 型 ， 返 回 的 整数 值 是 一 个 诸如 SocK_STREAM 
E US 的 值 。 本 选项 通常 由 启动 时 继承 了 套 接 字 的 进程 使 








7.5.13 ”SO_USELOOPBACK 套 接 字 选项 


本 选项 仅 用 于 路 由 域 (AF_RoUTE) 的 套 接 字 。 对 于 这 些 套 接 字 ， 它 
的 默认 设置 为 打开 〈 这 是 唯一 一 个 默认 值 为 打开 而 不 是 关闭 的 So_xxx 二 
元 套 接 字 选项 ) 。 当 本 选项 开启 时 ， 相 应 套 接 字 将 接收 在 其 上 发 送 的 任 
何 数据 报 的 一 个 副本 。 


禁止 这 些 环 回 副本 的 另 一 个 方法 是 调用 shutdown， 并 设置 它 的 第 二 
个 参数 为 SHUT_RD。 
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7.6 ”IPv4 套 接 字 选项 


这 些 套 接 字 选项 由 IPv4 人 处理， 它们 的 级 别 ( 即 getsockopt 和 


setsockopt 函 数 的 第 二 个 参数 ) 为 IPPROTO_IP。 我 们 把 其 中 的 多 播 套 接 
字 选 项 推迟 到 21.6 节 再 讨论 。 


7.6.1 IP_HDRINCL 套 接 字 选项 





如 果 本 选项 是 给 一 个 原始 IP 套 接 字 (第 28 半 ) 设置 的 ， 那 么 我 们 必 


须 为 所 有 在 该 原始 套 接 字 上 发 送 的 数据 报 构造 目 己 的 卫衣 部 。 一 般 情 况 


bh 


在 原始 套 接 字 上 发 送 的 数据 报 其 耻 首 部 是 由 内 核 构造 的 ， 不 过 有 些 


应 用 程序 〈 特 别 是 路 由 跟踪 程序 traceroute) 需要 构造 自己 的 IP 首 部 以 
取代 IP 置 于 该 首部 中 的 茶 些 字段 。 








当 本 选项 开启 时 ， 我 们 构造 完整 的 耻 首 部 ， 不 过 下 列 情况 例外 。 


IP 总 是 计算 并 存储 人 P 首 部 校 验 和 。 

如 果 我 们 将 IP 标 识字 上 段 置 为 0， 内 核 将 设置 该 字段 。 

如 果 源 IP 地 址 是 INADDR_ANY，IP 将 把 它 设置 为 外 出 接口 的 主 IP 地 
址 。 

如 何 设置 IP 选 项 取决 于 实现 。 有 些 实现 取出 我 们 预先 使 

用 IP_oPTIONS 套 接 字 选项 设置 的 任何 IP 选 项 ， 把 它们 添加 到 我 们 构 
ML d M 
26 JI o 

PP 首部 中 有 些 字 段 必 须 以 主机 字 节 序 填 写 ， 有 些 字段 必须 以 网 络 字 
节 序 填写 ， 具 体 取决 于 实现 。 这 使 得 利用 本 套 接 字 选项 编排 原始 分 
组 的 代码 不 像 期 竺 的 那样 便于 移植 。 


我 们 将 在 29.7 节 给 出 本 选项 的 一 个 例子 。TCPv2 第 1056 一 1057 页 提 


























供 了 本 选项 的 额外 详情 。 
7.6.2 IP _0PTIONS 套 接 字 选项 





本 选项 的 设置 允许 我 们 在 IPv4 首 部 中 设置 IP 选 项 。 这 要 求 我 们 熟悉 


IP 首 部 中 IP 选 项 的 格式 。 我 们 将 在 27.3 节 讲述 IPv4 源 路 径 时 讨论 这 个 选 
项 。 


7.6.3 ”IP_RECVDSTADDR 套 接 字 选项 


本 侠 接 字 选 项 导致 所 收 到 UDP 数 据 报 的 目的 IP 地 址 由 recvmsg 函 数 
作为 辅助 数据 返回 。 我 们 将 在 22.2 节 给 出 本 选项 的 一 个 例子 。 
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7.6.4 ”IP_RECVIF 套 接 字 选项 


本 套 接 字 选 项 导致 所 收 到 UDP 数据 报 的 接收 接口 索引 由 recvmsg 函 
数 作为 辅助 数据 返回 。 我 们 将 在 22.2 市 给 出 本 选项 的 一 个 例子 。 


7.6.5 IP TOSET 


本 套 接 字 选项 允许 我 们 为 TCP、UDP 或 SCTP 套 接 字 设置 IP 首 部 中 的 
服务 类 型 字段 (图 A-1， 该 字段 包含 DSCP 和 ECN 子 字段 ，。 如 果 我 们 给 
本 选项 调用 getsockopt， 那 么 用 于 放 入 外 出 IP 数 据 报 首 部 的 DSCP 和 ECN 
字段 中 的 TOS 当 前 值 〈 默 认为 0) 将 返回 。 我 们 没有 办 法 从 接收 到 的 IP 
数据 报 中 取得 该 值 。 


应 用 进程 可 以 把 DSCP 设 置 成 用 户 和 网 络 业务 供应 丙 预先 协商 好 的 
某 个 值 ， 以 便 接受 预定 的 服务 ， 例 如 对 IP 电 话 的 低 延 迟 服务 ， 对 海量 数 
据 传 送 的 高 吞吐 量 服务 。 由 RFC 2474 [Nichols et al. 1998] 定义 的 区 分 
服务 〈diffserv) KAZ AG BR IE ACE UI SR TIE TOS BOXE X. 
(RFC 1349 [Almquist 1992] ) 。 把 IP_T0S 设 置 成 <znetinet/ip.h> 中 定 
义 的 某 个 常 值 〈 例 如 IPTos_LowDELAY 和 IPTos_THRoucHPUT) 的 应 用 程序 
应 该 改 为 使 用 由 用 户 指 定 的 某 个 DSCP 值 。 区 分 服务 存留 的 TOS 值 只 有 
优先 权 级 别 6 (“internetwork control”, 网 间 控 制 ) 和 7 (“network 
control”， 网 内 控制 ) ， 这 意味 着 把 TIP_Tos 设 置 
成 IPTOS_PREC_NETCONTROL 或 IPTOS_PREC_ INTERNETCONTROL 的 应 用 程序 在 


区 分 服务 网 络 中 可 以 继续 工作 。 


RFC 3168 [ Ramakrishnan, Floyd, and Black 2001] 中 有 ECN 字 段 的 
定义 。 应 用 进程 通常 应 该 把 ECN 字 上 段 的 设置 留 给 内 核 ， 也 就 是 把 

















由 IP_T0S 设 置 的 值 中 的 低 两 位 指定 为 0。 


7.6.6 ”IP_TTL 套 接 字 选 项 


我 们 可 以 使 用 本 选项 设置 或 获取 系统 用 在 从 某 个 给 定 套 接 字 发 送 的 
单 播 分 组 上 的 默认 TIL 值 (图 A-1) 。 (多 播 TTL 值 使 
用 IP_MULTICAST_TTL 套 接 字 选项 设置 ， 见 21.6 节 。) 例如 4.4BSD 对 TCP 
和 UDP 套 接 字 使 用 的 默认 值 都 是 64〈 这 由 IANA 的 “TIP Option 
Numbers” 注 册 处 规定 ) ， 对 原始 套 接 字 使 用 的 默认 值 则 是 255。 跟 TOS 
字段 一 样 ， 调 用 getsockopt 返 回 的 是 系统 将 用 于 外 出 数据 报 的 字段 的 默 
认 值 。 我 们 没有 办 法 从 接收 到 的 卫 数 据 报 中 取得 该 值 。 我 们 将 在 图 28- 
19 所 示 的 traceroute 程 序 中 设置 本 套 接 字 选项 。 
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7.7 ICMPv6 & ^r i i 


这 个 唯一 的 套 接 字 选 项 由 ICMPv6 处 理 ， 它 的 级 别 〈 即 getsockopt 
和 setsockopt 国 数 的 第 二 个 参数 ) 为 IPPROTO_ICMPV6。 


ICMP6_FILTER 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 一 个 icmp6_filter 结 构 ， 访 结构 指出 
256 个 可 能 的 ICMPv6 消 息 类 型 中 哪些 将 经 由 某 个 原始 套 接 字 传 递 给 所 在 
进程 。 我 们 将 在 28.4 节 再 讨论 本 选项 。 


7.8 IPv6 套 接 字 选项 


这 些 套 接 字 选项 由 IPv6 处 理 ， 它 们 的 级 别 “〈 即 getsockopt 和 
setsockopt 函 数 的 第 二 个 参数 ) 为 IPPROTO_IPV6。 我 们 把 多 播 套 接 字 选 
项 推迟 到 21.6 节 再 讨论 。 这 些 选项 中 有 许多 用 上 了 recvmsg 函 数 的 辅助 数 
j& (ancillary data) 参数 ， 我 们 将 在 14.6 节 讨论 它 。 所 有 IPv6 套 接 字 选项 
都 定义 在 RFC 3493 [Gilligan et al. 2003] 和 RFC 3542 [Stevens et al. 
2003] 中 。 


7.8. IPV6 CHECKSUM E JÈ i ji 


本 选项 指定 用 户 数 据 中 校 验 和 所 处 位 置 的 字 节 偏 移 。 如 果 该 值 为 非 
负 ， 那 么 内 核 将 : GO 给 所 有 外 出 分 组 计算 并 存储 校 验 和 ; GD 验证 
外 来 分 组 的 校 验 和 ， 于 弃 所 有 校 验 和 无 效 的 分 组 。 本 选项 影响 除 
ICMPv6 原 始 套 接 字 以 外 的 所 有 IPv6 原 始 套 接 字 。 【内核 总 是 给 ICMPv6 
原始 套 接 字 计算 并 存储 校 验 和 。) 如 果 指 定 本 选项 的 值 为 -1〈 默 认 
值 ) ， 那 么 内 核 不 会 在 相应 的 原始 套 接 字 上 计算 并 存储 外 出 分 组 的 校 验 
和 ， 也 不 会 验证 外 来 分 组 的 校 验 和 。 


所 有 使 用 IPv6 的 协议 在 它们 各 上 自 的 协议 首部 都 应 该 有 一 个 校 验 和 。 
这 些 校 验 和 包含 一 个 伪 首 部 (pseudoheader) (RFC 2460 [Deering and 
Hinden 1998] ) ， 而 伪 首 部 包括 作为 校 验 和 一 部 分 的 源 IPv6 地 址 〈 这 一 
点 不 同 于 通常 使 用 IPv4 原 始 套 接 字 来 实现 的 所 有 其 他 协议 ) 。 这 样 不 必 
强求 使 用 原始 套 接 字 的 应 用 进程 进行 源 地 址 选择 ， 而 是 由 内 核 这 么 做 ， 
并 由 内 核 计算 并 存储 包含 标准 IPv6 伪 首部 的 检验 和 。 


7.8.2 ”IPV6_DONTFRAG 套 接 字 选项 


开启 本 选项 将 禁止 为 UDP 套 接 字 或 原始 套 接 字 自动 插入 分 片 首 部 ， 
外 出 分 组 中 大 小 超过 发 送 接口 MTU 的 那些 分 组 将 被 丢弃 。 发 送 分 组 的 
系统 调用 不 会 为 此 返回 错误 ， 因 为 已 发 送出 去 仍 在 途中 的 分 组 也 可 能 因 
为 超过 路 笃 MTU 而 被 丢弃 。 应 用 进程 应 该 开启 IPV6_RECVPATHMTU 选 项 以 
获悉 路 径 MTU 的 变动 。 
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7.8.83 ”IPV6_NEXTHOP 套 接 字 选项 


本 选项 将 外 出 数据 报 的 下 一 跳 地 址 指定 为 一 个 套 接 字 地 址 结构 。 这 
是 一 个 特权 操作 。 我 们 将 在 22.8 节 详细 讨论 这 个 特性 。 


7.8.8 ”IPV6_PATHMTU 套 接 字 选项 


本 选项 不 能 设置 ， 只 能 获取 。 获 取 本 选项 时 ， 返 回 值 为 由 路 径 
MTU 发 现 功能 确定 的 当前 MTU ( 见 22.9 节 ) 。 





7.8.5 ”IPV6_RECVDSTOPTS 套 接 字 选项 

开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 目 的 地 选项 都 将 由 recvmsg 作 
为 辅助 数据 返回 。 本 选项 默认 为 关闭 。 我 们 将 在 27.5 节 讲述 用 来 创建 和 
处 理 这 些 目的 地 选项 的 函数 。 
7.8.6 0 IPV6 RECVHOPLIMIT & £x Ji 


开局 本 选项 表明 ， 任 何 接收 到 的 跳 限 字段 都 将 由 recvmsg 作 为 辅助 
数据 返回 。 本 选项 默认 为 关闭 。 我 们 将 在 22.8 节 讲述 本 选项 。 


对 IPV4 而 言 ， 没 有 办 法 可 以 获取 接收 到 的 TTL 字 上 段 。 
7.8.7 IPV6 RECVHOPOPTS 套 接 字 选项 
开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 步 跳 选项 都 将 由 recvmsg 作 为 
辅助 数据 返回 。 本 选项 默认 为 天 闭 。 我 们 将 在 27.5 节 讲述 用 于 创建 和 处 
理 这 些 步 跳 选 项 的 函数 。 
7.8.8 ”IPV6 RECVPATHMTU 套 接 字 选项 


开局 本 选项 表明 ， 某 条 路 径 的 路 径 MTU 在 发 生变 化 时 将 由 recvmsg 
作为 辅助 数据 返回 (不 伴随 任何 数据 ，。 我 们 将 在 22.9 市 讲述 本 选项 。 


7.8.9 ”IPV6_RECVPKTINF0 套 接 字 选项 


开启 本 选项 表明 ， 接 收 到 的 IPv6 数 据 报 的 以 下 两 条 信息 将 
由 recvmsg 作 为 辅助 数据 返回 : 目的 IPv6 地 址 和 到 达 接 口 索 引 。 我 们 将 
在 22.8 节 讲述 本 选项 。 


217 


7.8.10 ”IPV6_RECVRTHDR 套 接 字 选项 


开启 本 选项 表明 ， 接 收 到 的 IPv6 路 由 首部 将 由 recvmsg 作 为 辅助 数 
据 返 回 。 本 选项 默认 为 关闭 。 我 们 将 在 27.6 节 讲述 用 于 创建 和 处 理 IPv6 
路 由 首部 的 函数 。 


7.8.11 IPV6 RECVTCLASS € 1Z ri ji 


开局 本 选项 表明 ， 接 收 到 的 流通 类 别 〈 包 含 DSCP 和 ECN 字 段 ) 将 
人 
选项 。 


7.8.12 ”IPV6_UNICAST HOPS 套 接 字 选项 


本 IPv6 选 项 类 似 于 IPv4 的 IP_TTL 套 接 字 选项 。 设 置 本 选项 会 给 在 相 
应 套 接 字 上 发 送 的 外 出 数据 报 指定 默认 跳 限 ， 获 取 本 选项 会 返回 内 核 用 
于 相应 套 接 字 的 跳 限 值 。 来 自 接收 到 的 IPv6 数 据 报 中 跳 限 字段 的 实际 值 
通过 使 用 IPvV6_RECVHOPLIMIT 套 接 字 选项 取得 。 我 们 将 在 图 28-19 所 示 的 
traceroute 程 序 中 设置 本 套 接 字 选项 。 





7.8.13 IPV6 USE MIN MTU 套 接 字 选项 


把 本 选项 设置 为 1 表明 ， 路 径 MTU 发 现 功能 不 必 执 行 ， 为 避免 分 
片 ， 分 组 就 使 用 IPv6 的 最 小 MITU 发 送 。 把 本 选项 设置 为 0 表明 ， 路 径 
MTU 人 发现 功能 对 于 所 有 目的 地 都 得 执行 。 把 本 选项 设置 为 -1 表明 ， 路 径 
MTU 发 现 功能 仅 对 单 播 目 的 地 执行 ， 对 于 多 播 目 的 地 就 使 用 最 小 
MTU。 本 选项 默认 值 为 -1。 我 们 将 在 22.9 节 讲述 本 选项 。 


7.8.14 ”IPV6 V60NLY 套 接 字 选项 





在 一 个 AF_INET6 套 接 字 上 开启 本 选项 将 限制 它 只 执行 IPv6 通 信 。 本 
选项 默认 为 关闭 ， 不 过 有 些 系统 存在 默认 开启 本 选项 的 手段 。 我 们 将 在 
12.2 节 和 12.3 节 讲述 使 用 AF_INET6 套 接 字 的 IPv4 和 IPv6 通 信 。 


7.8.45 ”IPV6_XXX 套 接 字 选项 


大 多 数 用 于 修改 协议 首部 的 IPv6 选 项 假设 : 就 UDP 套 接 字 而 言 ， 信 
恩 由 recvmsg 和 sendmsg 作 为 辅助 数据 在 内 核 和 应 用 进程 之 间 传 递 ， 整 
TCP 套 接 字 而 言 ， 同 样 的 信息 改 用 getsockopt 和 setsockopt 获 取 和 设 
置 。 套 接 字 选项 和 辅助 数据 的 类 型 一 致 ， 并 且 访 问 套 接 字 选项 的 缓冲 区 
n OE FRU EJ AUS "FEE fi e — 2x. 40 TECE27.7 B EIC — 
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7.9 ”TCP 套 接 字 选项 


TCP 有 两 个 套 接 字 选项 ， 它 们 的 级 别 〈 即 getsockopt 和 setsockopt 
函数 的 第 二 个 参数 ) 为 IPPROTO_TCP。 


7.9.1 TCP_MAXSEG 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 TCP 连 接 的 最 大 分 节 大 小 (MSS) 。 返 
回 值 是 我 们 的 TCP 可 以 发 送 给 对 端的 最 大 数据 量 ， 它 通常 是 由 对 端 使 用 
SYN 分 节 通 告 的 MSS， 除 非 我 们 的 TCP 选 择 使 用 一 个 比 对 端 通 告 的 MSS 
小 些 的 值 。 如 果 该 值 在 相应 套 接 字 的 连接 建立 之 前 取得 ， 那 么 返回 值 是 
未 从 对 端 收 到 MSS 选 项 的 情况 下 所 用 的 默认 值 。 还 得 注意 的 是 ， 如 果 用 
上 壁 如 说 时 间 惟 选项 的 话 ， 那 么 实际 用 于 连接 中 的 最 大 分 节 大 小 可 能 小 
于 本 套 接 字 选项 的 返回 值 ， 因 为 时 间 惟 选项 在 每 个 分 节 中 要 占用 12 字 节 
的 TCP 选 项 容量 。 


如 果 TCP 支 持 路 笃 MTU 发 现 功 能 ， 那 么 它 将 发 送 的 每 个 分 市 的 最 大 
数据 量 还 可 能 在 连接 存活 期 内 改变 。 如 果 到 对 端的 路 径 发 生变 动 ， 该 值 
就 会 有 所 调整 。 


我 们 在 图 7-1 中 指出 ， 本 套 接 字 选项 也 可 以 由 应 用 进程 设置 。 这 一 
点 并 非 在 所 有 系统 上 都 可 行 ， 毕 竟 本 选项 原本 是 个 只 读 选项 。4.4BSD 限 
制 应 用 进程 只 能 减少 其 值 ， 而 不 能 增加 其 值 CTCPv2 第 1023 页 ) 。 既 然 
本 选项 控制 TCP 可 以 发 送 的 每 个 分 节 的 数据 量 ， 禁 止 应 用 进程 增加 其 值 
是 明 吞 的。 一旦 连接 建立 ， 本 选项 的 值 就 是 对 端 通告 的 MSS 选 项 值 ， 
TCP 不 能 发 送 超过 该 值 的 分 节 。 当 然 ，TCP 总 是 可 以 发 送 数据 量 少 于 对 
端 通告 的 MSS 值 的 分 节 。 


7.9.2 ”TCP_NODELAY 套 接 字 选项 


开启 本 选项 将 禁止 TCP 的 Nagle 算 法 〈TCPv1 的 19.4 节 和 TCPv2 第 858 
一 859 页 ) 。 默 认 情 况 下 该 算法 是 局 动 的 。 


Nagle 算 法 的 目的 在 于 减少 广域网 WAND 上 小 分 组 的 数目 。 该 算 
法 指出 : 如 果 某 个 给 定 连 接 上 有 竺 确认 数据 (outstanding data) , JA 






































原本 应 该 作为 用 户 写 操作 之 响应 的 在 该 连接 上 立即 发 送 相应 小 分 组 的 行 
为 就 不 会 发 生 ， 直 到 现 有 数据 被 确认 为 止 。 包 这 里 “小 ”分 组 的 定义 就 是 
小 于 MSS 的 任何 分 组 。TCP 总 是 尽 可 能 地 发 送 最 大 大 小 的 分 组 ，Nagle 
算法 的 目的 在 于 防止 一 个 连接 在 任何 时 刻 有 多 个 小 分 组 竺 确认 。 


Rlogin 和 Telnet 的 客户 疹 是 两 个 第 见 的 小 分 组 产生 进程 ， 它 们 通 禹 
把 每 次 击 键 作为 单个 分 组 发 送 。 在 快速 的 局 域 网 CLAN) 上， 我们 通常 
不 会 注意 到 Nagle 算 法 对 这 些 客 户 进程 的 影响 ， 因 为 小 分 组 所 需 的 确认 
时 间 一 般 也 就 几 坚 秒 ， 远 远 小 于 我 们 相继 键入 两 个 字符 的 间隔 时 间 。 然 
而 在 广域网 上 ， 小 分 组 所 需 的 确认 时 间 可 能 长 达 一 秒 ， 我 们 融会 注意 到 
字符 回 显 的 延迟 ， 而 且 该 延迟 往往 被 Nagle 算 法 进一步 放大 。 
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考虑 下 面 的 例子 : 我 们 在 Rlogin 或 Telnet 的 客户 端 键入 6 个 字符 的 
串 “hello!*"， 每 个 字符 间 间 隔 正 好 是 250 ”ms。 到 服务 器 端的 RTT 为 600 
ms， 而 且 服 务 器 立即 发 回 每 个 字符 的 回 显 。 我 们 假设 对 客户 端 字 符 的 
ACK 是 和 字符 回 显 一 同 发 回 给 客户 端的 ， 并 且 忽 略 客户 端 发 送 的 对 服务 
器 端 回 显 的 ACK。 “我 们 稍 后 将 讨论 延 浏 的 ACK。 ) 假设 Nagle 算 法 是 
禁止 的 ， 我 们 得 到 图 7-14 所 示 的 12 个 分 组 。 




















图 7-14 禁止 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 





A 数据 分 节 从 左 到 在 ，ACK 从 右 
到 左 。 


如 果 Nagle 算 法 是 开启 的 (这 是 默认 情形 ) ， 我 们 就 得 到 图 7-15 所 
示 的 8 个 分 组 。 第 一 个 字符 独自 作为 一 个 分 组 发 送 ， 然 而 下 两 个 字符 没 
有 立即 发 送 ， 因 为 该 连接 上 有 一 个 小 分 组 竺 确认。 在 时 刻 600 处 收 到 对 
第 一 个 分 组 的 ACK 后 (该 ACK 由 第 一 个 字符 的 回 显 撒 带 ) ， 这 两 个 字 
enn 在 该 分 组 在 时 刻 1200 处 被 确认 之 前 ， 没 有 其 他 小 分 组 被 发 


2500 











图 7-15 “开启 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 


Nagle 算 法 常常 与 男 一 个 TCP 算 法 联合 使 用 : ACK Ei BK 

(delayed ACK algorithm) 。 该 算法 使 得 TCP 在 接收 到 数据 后 不 立即 发 
送 ACK， 而 是 等 待 一 小 段 时 间 〈 典 型 值 为 50 一 200ms) ， 然 后 才 发 送 
ACK。TCP 期 竺 在 这 一 小 段 时 间 内 目 身 有 数据 发 送 回 对 端 ， 被 延 汪 的 
ACK 就 可 以 由 这 些 数据 撒 带 ， 从 而 省 挤 一 个 TCP 分 节 。 这 种 情形 对 于 
Rlogin 和 Telnet 客 户 来 说 通常 可 行 ， 因 为 它们 的 服务 器 一 般 都 回 显 客户 
发 送 来 的 每 个 字符 ， 这 样 对 客户 端 字符 的 ACK 完 全 可 以 在 服务 器 对 该 字 
AFIN [ed e P PATR [Al e 








然而 对 于 其 服务 器 不 在 相反 方向 产生 数据 以 便携 带 ACK 的 客户 来 
说 ，ACK 延 滞 算 法 存在 问题 。 这 些 客户 可 能 觉察 到 明显 的 延迟 ， 因 为 客 
户 TCP 要 等 到 服务 器 的 ACK 延 滞 定 时 器 超时 才 继 续 给 服务 器 发 送 数据 。 
这 些 客户 需要 一 种 禁止 Nagle 算 法 的 方法 ，TcP_NODELAY 选 项 就 能 起 到 这 
个 作用 。 
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另 一 类 不 适合 使 用 Nagle 算 法 和 TCP 的 ACK 延 滞 算 法 的 客户 是 以 若 
于 小 片 数据 向 服务 器 发 送 单个 逻辑 请 求 的 客户 。 举 例 来 说 ， 假 设 某 个 客 
户 向 它 的 服务 器 发 送 一 个 400 字 节 的 请 求 ， 该 请 求 由 一 个 4 字 节 的 请 求 类 
型 和 后 跟 的 396 字 节 的 请 求 数 据 构 成 。 如 果 客 户 先 执行 一 个 4 字 市 的 
write 调 用 ， 再 执行 一 个 396 字 节 的 write 调 用 ， 那 么 第 二 个 写 操作 的 数 
据 将 一 直 等 到 服务 器 的 TCP 确 认 了 第 一 个 写 操作 的 4 字 节 数据 后 才 由 客 
户 的 TCP 发 送出 去 。 而 且 ， 由 于 服务 器 应 用 进程 难以 在 收 到 其 余 396 字 
节 前 对 先 收 到 的 4 字 节 数据 进行 操作 ， 服 务 器 的 TCP 将 拖延 该 4 字 节 数据 
的 ACK (也 就 是 说 ， 暂 时 不 会 有 从 服务 器 到 客户 的 任何 数据 可 以 撒 带 这 
个 ACK) 。 有 三 种 办 法 修正 这 类 客户 程序 。 

(1) ”使 用 writev (14.4 节 ) 而 不 是 两 次 调用 write。 对 于 本 例子 ， 单 
个 writev 调 用 最 终 导 致 调用 TCP 输 出 功能 一 次 而 不 是 两 次 ， 其 结果 是 只 
产生 一 个 TCP 分 节 。 这 是 首选 的 办 法 。 


(2) 把 前 4 字 节 的 数据 和 后 396 字 节 的 数据 复制 到 单个 缓冲 区 中 ， 然 
后 对 该 缓冲 区 调用 一 次 write。 


(3) 设置 TcP_NODELAY 套 接 字 选项 ， 继 续 调用 write 两 次 。 这 是 最 不 可 
取 的 办 法 ， 而 且 有 损 于 网 络 ， 通 党 不 应 该 考虑 。 


习题 7.8 和 习题 7.9 将 继续 讨论 本 例子 。 


221 








7.10 ”SCTP 套 接 字 选项 


数目 相对 较 多 的 SCTP 套 接 字 选项 (编写 本 书 时 为 17 个 ) 反映 出 
SCTP 为 应 用 程序 开发 人 员 提 供 了 较 细 粒度 的 控制 能 力 。 它 们 的 级 别 
( 即 getsockopt 和 setsockopt 了 水 数 的 第 二 个 参数 ) 为 IPPROTO_SCTP。 


若干 用 于 获取 SCTP 相 关 信 息 的 选项 要 求 把 一 些 数据 (例如 关联 1D 
和 /或 对 端 地 址 〉 传递 进 内 核 。 尽 管 getsockopt 的 一 些 实现 文 持 进程 与 内 
核 之 间 的 双 问 数据 传递 ， 然 而 并 非 所 有 实现 都 能 做 到 。SCTP 的 API 为 此 
定义 了 一 个 sctp_opt_info 函 数 (9.1177) 以 隐藏 这 个 差异 。 
在 getsockopt 支 持 双 同 数据 传递 的 系统 上 ，sctp_opt_info 只 
是 getsockopt 的 一 个 简单 外 包 。 在 其 他 系统 上 ， 它 执行 所 需 的 操作 ， 其 
中 可 能 用 到 定制 的 ioct1 或 某 个 新 的 系统 调用 。 当 获取 这 些 选 项 时 ， 我 
们 建议 总 是 使 用 sctp_opt_info 以 便 移植 。 图 7-2 中 这 些 选项 被 标 上 了 已 
首 记 号 (+) ， 它 们 包括 
SCTP_ASSOCINFO、 SCTP GET PEER ADDR INFO. SCTP PEER ADDR PARAMS、 S 
SCTP. RTOINFOTISCTP. STATUS. 

















7.10.1 SCTP ADAPTION LAYER d^ x Ii 


在 关联 初始 化 期 间 ， 任 何 一 个 端点 都 可 能 指定 一 个 适 配 层 指示 
(adaption layer indication) 。 这 个 指示 是 一 个 32 位 无 符号 整数 ， 可 由 两 
问 的 应 用 进程 用 来 协调 任何 本 地 应 用 适 配 层 。 本 选项 允许 调用 者 获取 或 
设置 将 由 本 站 提供 给 对 端的 适 配 层 指示 。 


获取 本 选项 的 值 时 ， 调 用 者 得 到 的 是 本 地 套 接 字 将 提供 给 所 有 未 来 
对 端的 值 。 要 获取 对 端的 适 配 层 指示 ， 应 用 进程 必须 预订 适 配 层 事 件 。 


7.10.2 ”scTP_ASSOCINF0 套 接 字 选项 


本 套 接 字 选项 可 用 于 以 下 三 个 目的 : (a) 获取 关于 某 个 现 有 关联 
的 信息 ， Cb) 改变 某 个 已 有 关联 的 参数 ，《〈c) 为 未 来 的 关联 设置 默认 
信息 。 在 获取 关于 某 个 现 有 关联 的 信息 时 ， 应 该 使 用 sctp_opt_info 孙 
Sa 作为 本 选项 的 输入 的 是 sctp_assocparams 结 








struct sctp assocparams { 
sctp assoc t sasoc assoc id; 
u int16 t sasoc asocmaxrxt; 
u inti16 t sasoc number peer destinations; 
u int32 t sasoc peer rwnd; 
u int32 t sasoc local rwnd; 
u int32 t sasoc cookie life; 


这 些 字 段 的 含义 如 下 所 述 
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e sasoc_assoc_id 存 放 竺 访问 关联 的 标识 《〈 即 关联 ID) 。 如 果 在 调 
用 setsockopt 时 置 0 本 字段 ， 那 么 sasoc_asocmaxrxt 和 
sasoc_cookie_1life 字 上 段 代表 将 作为 默认 信息 设置 在 相应 套 接 字 上 的 
值 。 如 果 在 调用 getsockopt 时 提供 关联 ID， 返 回 的 就 是 特定 于 该 关 
区 的 信息 上 县， 人 否则 如 果 置 0 本 字段 ， 返 回 的 就 是 默认 的 端点 设置 信 


"o — ——ÀÓM ey EN 
情况 下 尝试 重 传 的 最 大 次 数 。 达 到 这 个 次 数 后 SCTP 放 弃 重 传 ， 报 
告 用 户 对 端 不 可 用 ， 然 后 关闭 该 关联 。 

e asoc number peer destinationsff/URim H 的 地 址 数 。 它 不 能 设 
A, R 只 能 获取 。 

e sasoc_peer_rwnd 存 放 对 端的 当前 接收 窗口 。 该 值 表示 还 能 发 送 给 对 
端的 数据 字 节 总 数 。 本 字段 是 动态 的 ， 本 地 端点 发 送 数据 时 其 值 减 
小 ， 外 地 应 用 进程 读 取 已 经 收 到 的 数据 时 其 值 增 大 。 它 不 能 设置 ， 
只 能 获取 。 

e sasoc_local_rwnd 存 放 本 地 SCTP 协 议 栈 当前 通告 对 端 首 的 接收 窗口 。 
本 字段 也 是 动态 的 ， 并 受 so_sNDBUF 套 接 字 选项 影响 。 它 不 能 设 
置 ， 只 能 获取 。 

e sasoc_cookie_1ife 存 放送 给 对 端的 状态 cookie 以 宣 秒 为 单位 的 有 效 
期 。 为 了 防护 重 放 (replay) 每 个 随 INIT-ACK 块 送 给 对 端的 
状态 cookie 都 关联 有 一 个 生命 期 。 原 本 为 60 000 塞 秒 的 生命 期 默认 
值 可 以 通 Eu ce E CERA UE 


我 们 将 在 23.11 节 给 出 为 提升 性 能 而 调整 sasoc_asocmaxrxt 字 段 值 的 
建议 。 sasoc_ cookie_1ife 字 段 值 可 以 降低 以 便 更 好 地 防护 cookie 重 放 
攻击 ， 不 过 这 么 一 来 ， 针 对 网 络 延 迟 的 健壮 性 在 关联 发 起 期 间 有 上 所 降 














低 。 其 他 字段 可 以 用 于 调试 程序 。 
7.10.3 ”SCcTP_AUTOCLOSE 套 接 字 选项 





本 选项 允许 我 们 获取 或 设置 一 个 SCTP 端 点 的 自动 关闭 时 间 。 自 动 
关闭 时 间 是 一 个 SCTP 关 联 在 空间 时 保持 打开 的 秒 数 。SCTP 协 议 栈 把 空 
朵 定义 为 一 个 关联 的 两 个 端点 都 没有 在 发 送 或 接收 用 户 数据 的 状态 。 目 
动 天 闭 功能 默认 是 茶 止 的 。 


自动 关闭 选项 意 在 用 于 一 到 多 式 SCTP 接 口 (第 9 章 ) 。 当 设置 本 选 
项 时 ， 传 递 给 它 的 整数 值 为 茶 个 空 亲 关联 被 目 动 关闭 前 的 持续 秒 数 ， 值 
为 0 表示 茶 止 目 动 关闭 。 本 选项 仅仅 影响 由 相应 本 地 端点 将 来 创建 的 关 
联 ， 已 有 关联 保持 它们 的 现行 设置 不 变 。 

目 动 天 闭 功 能 可 由 服务 器 用 来 强制 关闭 空间 的 关联， 服务 器 无 十 为 
此 维护 额外 的 状态 。 使 用 本 特性 的 服务 喜 应 该 仔细 个 算 它 的 所 有 关联 预 
期 的 最 长 空 采 时 间 。 目 动 关 闭 时 间 设 置 过 短 会 导致 天 联 的 过 早 关闭 。 
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7.10.4 SCTP DEFAULT SEND _PARAM 套 接 字 选项 


SCTP 有 许多 可 选 的 发 送 参 数 ， 它 们 通常 作为 辅助 数据 传递 ， 或 者 
IHsctp sendmsgPK ZH (sctp_sendmsg 通 党 作为 库 函 数 实现 ， 它 蔡 用 
户 传递 辅助 数据 ) 。 和 希望 发 送 大 量 消息 且 所 有 消息 具有 相同 发 送 参数 的 
应 用 进程 可 以 使 用 本 选项 设置 默认 参数 ， 从 而 避免 使 用 辅助 数据 或 执 
行 sctp_sendmsg 调 用 。 本 选项 接受 sctp_sndrcvinfo 结 构 作 为 输入 。 


struct sctp sndrcvinfo ( 
u int16 t sinfo stream; 
u int16 t sinfo ssn; 
u inti16 t sinfo flags; 
u int32 t sinfo ppid; 

u int32 t sinfo context; 








u int32 t sinfo timetolive; 
u int32 t sinfo tsn; 

u int32 t sinfo cumtsn; 

sctp assoc t sinfo assoc id; 


HN 


这 些 字段 的 含义 如 下 所 述 。 


e sinfo_stream 指 定 新 的 默认 流 ， 所 有 外 出 消息 将 被 发 送 到 该 流 中 。 

e sinfo_ssn 在 设置 默认 发 送 参数 时 被 忽略 。 当 使 用 recvmsg 
或 sctp_recvmsg 函 数 接收 消息 时 ， 本 字段 将 存放 由 对 端 置 于 SCTP 
DATA 块 的 流 序 号 (stream sequence number, SSN) 字段 中 的 值 。 

e sinfo_flags 指 定 新 的 默认 标志 ， 它 们 将 应 用 于 所 有 消息 发 送 。 图 7- 
16 列 出 了 这 些 标志 值 。 







"m 
MSG ABCRT fast pab EIS SEXES rmn. 
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图 7-16 sinfo_flags 字 段 允 许 的 SCTP 标 志 值 


e sinfo_ppid 指 定 将 置 于 所 有 外 出 消 明 中 的 SCTP 净 衔 协议 标识 
(payload protocol identifier) 字段 的 默认 值 。 

sinfo_context 指 定 新 的 默认 上 下 文 。 本 字段 是 个 本 地 标志 ， 用 于 
检索 无 法 发 送 到 对 端的 消息 。 
sinfo_timetolive 指 定 新 的 默认 生命 期 ， 它 将 应 用 于 所 有 消息 发 
送 。SCTP 协 议 栈 使 用 本 字段 判定 何 时 丢弃 (尚未 执行 首次 传送 
就 ) 因 过 度 拖 延 而 失效 的 外 出 消息 。 如 果 同 一 关联 的 两 个 端点 都 支 
持 部 分 可 靠 性 (partial reliability) 选项 ， 那 么 本 生命 期 也 用 于 指定 
完成 首次 传送 后 的 消息 的 继续 有 效 期 。 
sinfo_tsn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 

或 sctp_recvmsg 隙 数 接收 消息 时 ， 本 字段 将 存放 由 对 端 置 于 SCTP 
DATA 块 的 传输 序号 (transport sequence number, TSN) 字段 中 的 
值 。 

sinfo_cumtsn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 

或 sctp_recvmsg 函 数 接收 消息 时 ， 本 字段 将 存放 本 地 SCTP 协 议 栈 已 
与 对 端 挂钩 的 当前 累积 TSN。 

sinfo_assoc_id 指 定 请 求 者 希望 对 其 设置 默认 参数 的 关联 标识 。 对 
于 一 到 一 式 套 接 字 ， 本 字段 被 忽略 。 


注意 ， 所 有 默认 设置 只 影响 没有 指定 sctp_sndrcvinfo 结 构 的 消息 发 





送 。 指 定 了 该 结构 的 消息 发 送 〈 例 如 斋 辅 助 数据 的 sctp_sendmsg 
或 sendmsg 函 数 调用 ) 将 履 写 默认 设置 。 除 了 进行 默认 设置 ， 通 过 使 
用 sctp_opt_info 国 数 ， 本 选项 也 可 用 于 获取 当前 的 默认 设置 。 


7.10.5 ”SCcTP_DISABLE_FRAGMENTS 套 接 字 选项 


SCTP 通 常 把 太 大 而 不 适合 置 于 单个 SCTP 分 组 中 的 用 户 消息 分 割 成 
多 个 DATA 块 。 开 启 本 选项 将 在 发 送 端 禁止 这 种 行为 。 被 禁止 后 ，SCTP 
将 为 此 同 用 户 返 送 EMsGSsIZE 错 误 ， 并 且 不 发 送 用 户 消 息 。SCTP 的 默认 
ELI ee tet, SCTPXS Zo HJUBIABATA 


那些 希望 自己 控制 消息 大 小 的 应 用 进程 可 以 使 用 本 选项 ， 以 便 确保 
每 个 用 户 应 用 消息 都 适合 置 于 单个 JP 分 组 中 。 开 启 了 本 选项 的 应 用 进程 
必须 准备 好 处 理 出 错 情况 〈 即 消息 过 大 ) ， 它 们 既 可 以 提供 应 用 层 的 消 
息 分 片 机 制 ， 也 可 以 改 用 较 小 的 消息 。 


7.10.6 scTP EVENTS E Z^ Y i 


本 套 接 字 选项 允许 调用 者 获取 、 开 局 或 禁止 各 种 SCTP 通 知 。SCTP 
通知 是 由 SCTP 协 议 栈 发 送 给 应 用 进程 的 消息 。 这 种 消息 束 像 普通 消息 
那么 读 取 ， 只 需 把 recvmsg 图 数 的 msghdr 结 构 参 数 中 的 msg_flags 字 段 设 
置 为 nsS6_NOTIFICATION。 不 准备 使 用 recvmsg 或 sctp_recvmsg 了 水 数 的 应 用 
进程 不 应 该 开启 事件 通知 功能 。 使 用 本 选项 传递 一 
个 sctp_event_subscribe 结 构 就 可 以 预订 8 类 事件 的 通知 。 访 结构 的 格式 
如 下 ， 其 中 各 个 字段 的 值 为 0 表示 不 预订 ， 为 1 表示 预订 。 
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struct sctp event subscribe { 

u int8 t sctp data io event; 

u int8 t sctp association event; 

u int8 t sctp address event; 

u int8 t sctp send failure event; 

u int8 t sctp peer error event; 

u int8 t sctp shutdown event; 

u int8 t sctp partial delivery event; 
u int8 t sctp adaption layer event; 


ti 











图 7-17 汇 总 了 这 些 事件 。 我 们 将 在 9.14 节 继续 讨论 事件 通知 。 






Sctp data io event JM BSRIESHErecouasciEHB[Elsezp sndrevinfy. 
Sctp 5880c:ation event 开户 / 棕 止 关联 建立 事 性 通知 。 

mp Sc AM enr 开启 /禁止 地 址 事件 通知 ， 

sctp send failure event FR SE De ee HE (T3 4:1. 

sctp peer error event VE A A Ho Hin SE 

sctp shutdown event JEILSEAESEIBE 8 ERE i, 

sctp partial delivery event | 开启 /禁止 部 分 递送 API 事 件 通知 。 

sctp *dapt:on layer event JEn essi bo SLE ETUR 





Ed 7-17 sctp_event_subscribe 结 构 的 各 个 字段 
7.10.7 ”SCcTP_GET_PEER_ADDR_INF0 套 接 字 选 项 


本 选项 仅 用 于 获取 某 个 给 定 对 端 地 址 的 相关 信息 ， 包 括 拥塞 窗口 、 
平滑 化 后 的 RTT 和 MTU 等 。 作 为 本 选项 的 输入 的 是 sctp_paddrinfo 结 
构 。 调 用 者 在 其 中 的 spinfo_address 字 段 填 入 待 查询 的 对 端 地 址 ， 并 且 
为 了 便于 移植 ， 应 该 使 用 sctp_opt_info 国 数 而 不 是 getsockopt 函 
数 。sctp_paddrinfo 结 构 的 格式 如 下 : 


struct sctp paddrinfo { 
sctp assoc t spinfo assoc id; 
struct sockaddr storage spinfo address; 
int32 t spinfo state; 
u int32 t spinfo cwnd; 





u int32 t spinfo srtt; 
u int32 t spinfo rto; 
u int32 t spinfo mtu; 


H 





返回 给 调用 者 的 该 结构 中 各 个 字段 的 含义 如 下 所 述 。 
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e spinfo_assoc_id 存 放 关 联 标识 ， 它 和 “communication up”( 通 信 开 
ga) 即 scTP_coMM_uUpP 通 知 中 提供 的 信息 一 致 。 几 乎 所 有 SCTP 操 作 都 
可 以 使 用 这 个 唯一 的 值 作 为 相应 关联 的 简明 标识 。 

e spinfo_address 由 调用 者 设置 ， 用 于 告知 SCTP 套 接 字 想 要 获取 哪 一 
个 对 端 地 址 的 信息 。 调 用 返回 时 其 值 不 应 该 改变 。 

e spinfo_state 存 放 图 7-18 所 示 的 一 个 或 多 个 常 值 。 





SCIP ACTIVE 地 址 活跃 且 可 达 。 


SCTP INACTIVE piti Ap dup. 
SCTP ADDR UNCONFIRMED 地 址 尚未 由 心 搏 或 用 户 数 据 证 实 。 





图 7-18 ”SCTP 对 端 地 址 状态 


其 中 未 证 实地 址 Cunconfirmed address) 是 一 个 对 端 已 作为 有 效 地 
址 列 出 ， 而 本 地 SCTP 尚 不 能 证 实 对 端 确 实 持 有 它 的 地 址 。 当 送 往 某 个 
地 址 的 心 搏 或 用 户 数据 得 到 对 端 确 认 时 ， 本 地 SCTP 端 点 耽 可 以 证 实 该 
地 址 确实 为 对 端 所 有 了 。 注 意 ， 未 证 实 的 地 址 并 没有 有 效 的 重 传 超时 
(retransmission timeout, RTO) 值 。 活 跃 地 址 则 表示 被 认为 是 可 用 的 地 
Hs 





e spinfo_cwnd#e7n Arde EX mE HE E I 2 BE E f H o 
[ Stewart and Xie 2001] 第 177 页 讲述 了 如 何 管理 cwnd 值 。 
e LUPIS 0 的 平滑 化 后 RTT 的 当前 估计 
e spinfo_rto 表 示 用 于 所 指定 对 端 地 址 的 当前 重 传 超时 值 。 
e spinfo_mtu 表 示 由 路 径 MTU 发 现 功能 发 现 的 通 往 所 指定 对 端 地 址 的 
路 径 MTU 的 当前 值 。 


本 选项 的 一 个 有 意思 的 用 途 是 : 把 一 个 IP 地 址 结构 转换 成 一 个 可 用 
于 其 他 调用 的 关联 标识 。 我 们 将 在 第 23 章 中 阐述 这 个 套 接 字 选项 的 用 
Ko FINA BEI ze: 由 应 用 进程 跟踪 一 个 多 牡 对 端 主机 每 个 地 址 的 
性 能 ， 并 把 相应 关联 的 主 目的 地 址 更 新 为 其 中 性 能 最 佳 的 一 个 。 这 些 值 
也 同样 有 利于 日 志 记录 和 程序 调试 。 








7.10.8 SCTP I WANT MAPPED _V4_ADDR 套 接 字 选项 








这 个 标志 套 接 字 选 项 用 于 为 AF_INET6 类 型 的 套 接 字 开启 或 禁止 ITPv4 
映射 地 址 ， 其 默认 状态 为 开启 。 注 意 ， 本 选项 开启 时 ， 所 有 IPv4 地 址 在 
送 往 应 用 进程 之 前 将 被 映射 成 一 个 IPv6 地 址 。 本 选项 禁止 时 ，SCTP 套 
接 字 不 会 对 IPv4 地 址 进行 映射 ， 而 是 作为 sockaddr_in 结 构 直接 传递 。 
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7.10.9 scrTP INITMSG &1Z rk Jj 


本 套 接 字 选项 用 于 获取 或 设置 某 个 SCTP 套 接 字 在 发 送 INIT 消 息 时 
的 默认 初始 参数 。 作 为 本 选项 的 输入 的 是 sctp_initmsg 结 构 ， 其 定 
义 如 下 : 


struct sctp initmsg { 
uinti16 t sinit num ostreams; 
uinti16 t sinit max instreams; 
uinti6 t sinit max attempts; 
uinti16 t sinit max init timeo; 


这 些 字段 的 含义 如 下 所 述 。 


sinit_num_ostreams 表 示 应 用 进程 想 要 请 求 的 外 出 SCTP 流 的 数目 。 
该 值 要 等 到 相应 关联 完成 初始 握手 后 才 得 到 确认 ， 而 且 可 能 因为 对 
问 的 限制 而 向 下 协调 。 
sinit_max_instreams 表 示 应 用 进程 准备 允许 的 外 来 SCTP 流 的 最 大 
数目 。 如 果 该 值 大 于 SCTP 协 议 栈 所 文 持 的 最 大 允许 流 数 ， 那 么 它 
将 被 改 为 这 个 最 大 数 。 

e sinit_max_attempts 表 示 SCTP 协 议 栈 应 该 重 传 多 少 次 初始 INIT 消 息 
才 认为 对 端 不 可 达 . 

sinit_max_init_timeo 表 示 用 于 INIT 定 时 器 的 最 大 RTO 值 。 在 初始 
定时 器 进行 指数 退 避 期 间 ， 该 值 将 蔡 代 RTo.max 作 为 重 传 RTO 极 

Kk. WW AIPA 


注意 ， 当 设置 这 些 字 段 时 ，SCTP 将 忽略 其 中 的 任何 0 值 。 一 到 多 式 
BRT (9.27) 的 用 户 在 关联 隐 性 建立 期 间 也 可 能 在 辅助 数据 中 传递 


一 个 sctp_initmsg 结 构 。 
7.10.10 ”scTP_MAXBURST 套 接 字 选项 


本 套 接 字 选 项 允许 应 用 进程 获取 或 设置 用 于 分 组 发 送 的 最 大 狸 发 大 
小 (maximum burst size) 。 当 SCTP 同 对 端 发 送 数 据 时 ， 一 次 不 能 发 送 
多 于 这 个 数目 的 分 组 ， 以 免 网 络 被 分 组 淹没 。 具 体 的 SCTP 实 现 有 两 种 
方法 应 用 这 个 限制 : 〈1) 把 拥塞 窗口 缩减 为 当前 飞行 大 小 〈current 
flight size) 加 上 最 大 狼 发 大 小 与 路 径 MTU 的 滋 积 : Q2) 把 该 值 作为 一 














个 独立 的 微观 控制 量 ， 在 任意 一 个 发 送 机 会 最 多 只 发 送 这 个 数目 的 分 
组 。 
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7.10.11 SCTP MAXSEG E £y: X Ji 


本 套 接 字 选 项 允许 应 用 进程 获取 或 设置 用 于 SCTP 分 片 的 最 大 片段 
大 小 (maximum fragment size) 。 本 选项 和 7.9 节 中 讲述 的 TCP 选 
项 TCP_MAXSEG 类 似 。 


当 茶 个 SCTP 发 送 端 从 其 应 用 进程 收 到 一 个 大 于 这 个 大 小 的 消 忆 
时 ， 它 将 把 该 消息 分 割 成 多 个 块 ， 以 便 分 别传 送 到 对 并 。SCTP 友 送 疡 
通常 使 用 的 这 个 大 小 是 通达 它 的 对 并 的 所 有 路 径 各 自 的 MTU 中 的 最 小 
值 〈 每 条 路 径 对 应 一 个 对 端 地 址 ) 。 设 置 本 选项 可 以 把 这 个 大 小 降低 到 
所 指定 的 值 。 注 意 ，SCTP 可 能 以 比 本 选项 所 请 求 的 值 更 小 的 边界 分 割 
消息 。 当 通达 对 端的 某 条 路 径 的 MTU 变 得 比 本 选项 所 请 求 的 值 还 要 小 
时 ， 这 种 偏 小 的 分 割 就 会 发 生 。 


最 大 片段 大 小 是 一 个 端点 范 围 的 设置 ， 在 一 到 多 式 接 口中 ， 它 可 能 
影响 不 止 一 个 关联 。 


7.10.12. scTP NODELAY E Ey YE Jj 


开启 本 选项 将 禁止 SCTP 的 Nagle 算 法 。 本 选项 默认 关闭 (也 就 是 说 
默认 情况 下 Nagle 算 法 是 启动 的 ) 。SCTP 的 Nagle 算 法 与 TCP 的 Nagle 算 
法 工作 原理 相同 ， 区 别 在 于 前 者 对 付 多 个 DATA 块 ， 后 者 对 付 单 个 流 上 
的 字 节 。 关 于 Nagle 算 法 的 讨论 见 TcP_NODELAY。 














7.10.13  SCTP PEER ADDR _PARAMS 套 接 字 选项 


本 套 接 字 选项 允许 应 用 进程 获取 或 设置 关于 某 个 关联 的 对 端 地 址 的 
各 种 参数 。 作 为 本 选项 的 输入 的 是 sctp_paddrparams 结 构 。 调 用 者 必须 
在 该 结构 中 填写 关联 标识 和 /或 一 个 对 端 地 址 ， 其 定义 如 下 : 


struct sctp paddrparams { 
sctp assoc t spp assoc id; 
struct sockaddr storage spp address; 
u int32 t spp hbinterval; 








u int16 t spp pathmaxrxt; 
HN 


这 些 字段 的 含义 如 下 所 述 。 


spp_assoc_id 存 放 在 其 上 获取 或 设置 参数 信息 的 关联 标识 。 如 果 该 
值 为 0， 那 么 所 访问 的 是 端点 默认 参数 ， 而 不 是 特定 于 关联 的 参 
数 。 

spp_address 指 定 其 参数 待 获 取 或 待 设置 的 对 端 IP 地 址 。 如 果 
spp_assoc_id 字 段 值 为 0， 那 么 本 字段 被 忽略 。 
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spp_hbinterval 表 示 心 搏 间 隔 时 间 。 设 置 该 值 为 ScTP_No_HB 将 禁止 
心 搏 ， 为 ScTP_ISSUE_HB 将 按 请 求 心 搏 ， 为 其 他 值 则 将 把 心 搏 间隔 
重 置 为 以 毫秒 为 单位 的 新 值 。 设 置 端 点 默认 参数 时 ， 不 能 使 

用 scTP_ISSUE_HB 这 个 值 。 

spp_pathmaxrxt 表 示 在 声明 所 指定 对 端 地 址 为 不 活跃 之 前 将 尝试 的 
重 传 次 数 。 当 主 目 的 地 址 被 声明 为 不 活跃 时 ， 另 外 一 个 对 端 地 址 将 
被 选 为 主 目的 地 址 。 





7.10.14  SCTP PRIMARY ADDRÁE ZZ 


本 套 接 字 选 项 用 于 获取 或 设置 本 地 端点 所 用 的 主 目的 地 址 。 主 目的 


地 址 是 本 端 发 送 给 对 端的 所 有 消息 的 默认 目的 地 址 。 作 为 本 选项 的 输入 
的 是 sctp_setprim 结 构 。 调 用 者 必须 在 该 结构 中 填写 关联 标识 ， 若 是 设 





主 目的 地 址 则 再 填写 一 个 将 用 作 主 目的 地 址 的 对 端 地 址 ， 其 定义 如 


struct sctp setprim { 
sctp assoc t ssp assoc id; 
struct sockaddr storage ssp addr; 


J; 


这 些 字段 的 含义 如 下 所 述 。 


e ssp_assoc_id 存 放 在 其 上 获取 或 设置 当前 主 目的 地 址 的 关联 标识 。 
对 于 一 到 一 式 套 接 字 ， 本 字段 被 忽略 。 

e ssp_addr 指 定 主 目的 地 址 ( 主 目 的 地 址 必须 是 一 个 属于 对 端的 地 
HE) 。 使 用 setsockopt 函 数 设 置 本 选项 时 ， 本 字段 为 请 求 者 要 求 设 
置 的 主 目的 地 址 的 新 值 ， 使 用 getsockopt 函 数 获取 本 选项 时 ， 本 字 
段 为 当前 所 用 主 目 的 地 址 的 值 。 


注意 ， 在 只 有 一 个 本 地 地 址 与 之 关联 的 一 到 一 式 套 接 字 上 获取 本 选 
项 的 值 跟 直接 调用 getsockname 是 一 样 的 。 


7.10.15 ”SCTP_RTOINF0O 套 接 字 选项 


本 套 接 字 选 项 用 于 获取 或 设置 各 种 RTO 信 息 ， 它 们 既 可 以 是 关于 某 
个 给 定 关 联 的 设置 ， 也 可 以 是 用 于 本 地 端点 的 默认 设置 。 为 了 便于 移 
植 ， 当 获取 信息 时 ， 调 用 者 应 该 使 用 sctp_opt_info 函 数 而 不 
mi NDS 作为 本 选项 的 输入 的 是 sctp_rtoinfo 结 构 ， 其 定义 
Wh: 


struct sctp rtoinfo { 

















sctp assoc t srto assoc id; 
uint32 t srto initial; 
uint32 t srto max; 
uint32 t srto min; 
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这 些 字段 的 含义 如 下 所 述 。 


srto_assoc_id 存 放 感 兴趣 关联 的 标识 或 0。 若 值 为 0， 当 前 函数 调 
用 会 对 系统 的 默认 参数 产生 影响 。 
srto_initial 存 放 用 于 对 端 地 址 的 初始 RTO 值 。 初 始 RIO 值 在 同 对 
端 发 送 INIT 块 时 使 用 。 该 值 以 毫秒 为 单位 且 默 认 值 为 3 000。 
srto_max 存 放 在 更 新 重 传 定时 器 时 使 用 的 最 大 RTO 值 。 如 果 更 新 后 
的 RTO 值 大 于 这 个 RTO 最 大 值 ， 那 就 把 这 个 最 大 值 作为 新 的 RTO 
值 。 该 值 默认 为 60 000. 

srto_min 存 放 在 启动 重 传 定 时 器 时 使 用 的 最 小 RTO 值 。 任 何 时 候 
RTO 定 时 器 一 旦 更 改 ， 就 对 照 这 个 RTO 最 小 值 检查 新 值 。 如 果 新 值 
小 于 最 小 值 ， 那 就 把 这 个 最 小 值 作为 新 的 RTO 值 。 该 值 默 认为 1 














000. 





srto initial. srto_max 或 srto_min 值 为 0 表示 当前 设 定 的 默认 值 不 
应 改变 。 所 有 时 间 值 都 以 又 秒 为 单位 。 我 们 将 在 23.11 节 给 出 为 提升 性 
能 而 设置 这 些 定时 器 值 的 指导 。 





7.10.16 SCcTP_SET_PEER_PRIMARY_ADDR 套 接 字 选项 


设置 本 套 接 字 选项 导致 发 送 一 个 消息 : 请 求 对 端 把 所 指定 的 本 地 地 
址 作为 它 的 主 目的 地 址 。 作为 本 选项 的 输入 的 是 sctp_setpeerprim 结 
构 。 调 用 者 必须 在 该 结构 中 填写 关联 标识 和 一 个 请 求 对 端 标 为 其 主 目的 
地 址 的 本 地 地 址 。 这 个 本 地 地 址 必须 已 经 绑 定 在 本 地 端 
点 。sctp_setpeerprim 结 构 的 定义 如 下 : 


struct sctp setpeerprim { 
sctp assoc t sspp assoc id; 
struct sockaddr storage sspp addr; 


J; 











这 些 字段 的 含义 如 下 。 


e sspp_assoc_id 指 定 在 其 上 想 要 设置 主 目的 地 址 的 关联 标识 。 对 于 
一 到 一 式 套 接 字 ， 本 字段 被 忽略 。 
e sspp_addr 存 放 想 要 对 端 设置 为 主 目 的 地 址 的 本 地 地 址 。 
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本 特性 是 可 选 的 ， 只 有 两 端 均 文 持 才 能 运作 。 如 果 本 地 端点 不 支持 
本 特性 ， 那 就 给 调用 者 EoPNOTSUPP 返 回 错误 。 如 果 远 程 端 点 不 支持 本 特 
性 ， 那 就 返回 调用 者 EINVAL 错 误 。 另 外 注意 ， 本 套 接 字 选 项 只 能 设置 ， 
不 能 获取 。 


7.10.17 ”SCTP_STATUS 套 接 字 选项 
本 套 接 字 选项 用 于 获取 某 个 SCTP 关 联 的 状态 。 为 了 便于 移植 ， 调 


用 者 应 该 使 用 sctp_opt_info 函 数 而 不 是 getsockopt 函 数 。 作 为 本 选项 的 
输入 的 是 sctp_status 结 构 。 调 用 者 必须 在 该 结构 中 填写 关联 标识 ， 关 

















于 这 个 关联 的 信息 将 在 返回 时 被 填写 到 该 结构 的 其 他 字段 
中 。sctp_status 结 构 的 格式 如 下 : 


struct sctp status ( 
Sctp assoc t sstat assoc id; 
int32 t sstat state; 
u int32 t sstat rwnd; 
u int16 t sstat unackdata; 
u inti16 t sstat penddata; 
u int16 t sstat instrms; 
u int16 t sstat outstrms; 
u int32 t sstat fragmentation point; 
struct sctp paddrinfo sstat primary; 


u 
这 些 字段 的 含义 如 下 。 


e sstat_assoc_id 存 放 关 联 标 识 。 
e sstat_state 存 放 图 7-19 所 示 常 值 之 一 ， 指 出 关联 的 总 体 状态 。 图 2- 
8 详细 描述 了 在 关联 建立 或 终止 期 间 ， 一 个 SCTP 端 点 经 历 的 状态 。 


SCTP CLOSED 关联 己 关 闭 
SCTP COCKIE WAIT 关联 己 发 送 INIT 


SCTP COCKIE ECHOED 关联 已 回 射 COOKIE 


SCTP ESTABLISHED KW: Eu DA 

SCTP SHUTDOWN PENDING 关联 期 待 发 送 SHUTDOWN 
SCTP_SHUTDOWN_SENT 关联 已 发 送 SHUTDOWN 

SCTP SHUTDOWN RECEIVED 关联 已 收 到 SHUTDOWN 

SCTP SHUTDOWN ACK SENT 关联 在 等 待 SHUTDOWN-COMPLETE 





图 7-19 SCTP 状态 





e sstat_rwnd 存 放 本 地 端点 对 于 对 端 接收 窗口 的 当前 估计 。 

e sstat_unackdata 存 放 等 着 对 端 处 理 的 未 确认 DATA 块 数目 。 

e. sstat_penddata 存 放 本 地 端 点 暂 存 并 等 着 应 用 进程 读 取 的 未 读 
DATA 块 数目 。 


sstat instrmsfJUOR] Ying Hd F I9] Zim ACK A ACH o 
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e sstat_outstrms 存 放 本 端 可 用 于 回 对 端 发 送 数据 的 流 的 数目 。 
sstat_fragmentation_point 存 放 本 地 SCTP 端 点 将 其 用 作用 户 消息 
分 割 点 的 当前 值 。 该 值 通 常 是 所 有 目的 地 址 的 最 小 MTU， 或 者 是 
由 本 地 应 用 进程 使 用 ScTP_MAXSEG 套 接 字 选项 设置 的 更 小 的 值 。 
sstat_primary 存 放 当 前 主 目的 地 址 。 主 目的 地 址 是 向 对 端 发 送 数 
据 时 使 用 的 默认 目的 地 址 。 


这 些 值 可 用 于 诊断 或 确定 会 话 的 特征 。 举 例 来 说 ，10.2 节 将 介绍 的 
sctp_get_no_strms 国 数 将 使 用 sstat_outstrms 成 员 确 定 有 多 少 外 出 流 可 
用 。 偏 低 的 sstat_rwnd 值 和 /或 偏 高 的 sstat_unackdata 值 可 用 于 判定 对 
羔 的 接收 套 接 字 绥 冲 区 正在 变 满 ， 这 一 点 又 可 用 作 让 应 用 进程 尽 可 能 降 
低 发 送 速率 的 信和 号。 有 些 应 用 进程 使 用 sstat_fragmentation_point 减 少 
SCTP 不 得 不 创建 的 片段 数量 ， 办 法 就 是 发 送 较 小 的 应 用 消息 。 


7.11 fent1ee žk 


与 代表 “file control" FFER WA AAT, fentibE ZATE 
种 描述 符 控 制 操 作 。 在 讲解 该 函数 及 其 如 何 影响 套 接 字 之 前 ， 我 们 需要 
图 7-20 汇 总 了 由 fcnt1、ioct1 和 路 由 套 接 字 执 行 的 不 同 操 








ioctl Plu POSIX 
TERREA ANON 本 Lum 
UU ER EO S RANOR F SEIFL, UO ASYNC FIOASYNC fortl 
i A fete eR F SEIOWN STOCSPARP UE fcrtl 
PLOSETOWN 
TREY TE Mi d: P GZIOWN EIOCUPGRE UE fcrtl 
PLOGETOWN | 
ku SHES nr duda MP EM FIONRERD 
aW sh HEHE ua v Ab eas STOCATMARK socketmnark 
tE DS fo L1 0 pe SIOCGIFCCNF | sysctl | 
WE ST SIOC|GS)IFvw | 
ARP SHEEP STOCKARP RTM xxx 
Wi Hades fi: SIOCwcRI RTM xx 





图 7-20 ”fcnt1、ioct1 和 路 由 套 接 字 操 作 小 结 
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其 中 前 六 个 操作 可 由 任何 进程 应 用 于 套 接 字 ， 接 着 两 个 操作 (接口 
操作 ) 比较 少见 ， 不 过 也 是 通用 的 ， 后 两 个 操作 (ARP 和 路 由 表 操作 ) 
由 诸如 ifconfig 和 route 之 类 管理 程序 执行 。 我 们 将 在 第 17 章 中 详细 讨 
论 各 种 ioct1 操 作 ， 在 第 18 章 中 详细 讨论 路 由 套 接 字 。 


执行 前 四 个 操作 的 方法 不 止 一 种 ， 不 过 我 们 在 最 后 一 列 指出 ， 
POSIX 规 定 fcnt1 方 法 是 首选 鸭 。 我 们 还 指出 ，POSIX 提 供 sockatmark 函 
BM (24.3 8). 作为 测试 是 否 处 于 带 外 标志 的 首选 方法 。 最 后 一 列 空白 的 
其 余 操作 没有 被 POSIX 标 准 化 。 


我 们 还 指出 ， 设 置 套 接 字 为 非 阻 塞 式 O 型 和 信号 驱动 式 JO 型 的 前 
两 个 操作 ， 历 史上 曾 用 fcnt1 的 FNDELAY 和 FASYNC 命 令 执 行 。POSIX 定 义 


的 是 0_xxx 常 值 。 
fcnt1 函 数 提 供 了 与 网 络 编程 相关 的 如 下 特性 。 





。 非 阻塞 式 1O。 通 过 使 用 F_sETFL 命 令 设 置 0_ NoNBLocKk 文 件 状态 标 
志 ， 我 们 可 以 把 一 个 套 接 字 设置 为 非 阻塞 型 。 我 们 将 在 第 16 章 中 讲 
述 非 阻塞 式 IO。 

e 信号 驱动 式 /O。 通 过 使 用 F_sETFL 命 令 设 置 0_AsYNC 文 件 状态 标志 ， 
我 们 可 以 把 一 个 套 接 字 设置 成 一 旦 其 状态 发 生变 化 ， 内 核 就 产生 一 
个 sr6Io 信 号 。 我 们 将 在 第 25 章 中 讨论 这 一 点 。 

e F_SETOWN 命 令 人 允许 我 们 指定 用 于 接收 sTGIo0 和 SIGURG 信 号 的 套 接 字 属 
主 〈 进 程 ID 或 进程 组 ID) 。 其 中 srGro 信 号 是 套 接 字 被 设置 为 信号 
驱动 式 1O 型 后 产生 的 〈 第 25 章 ) ，SIGURG 信 号 是 在 新 的 带 外 数据 
Se a a 

Te 
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术语 “和 套 接 字 属 主 ” 由 POSIX 定 义 。 历 史上 源 自 Berkeley 的 实现 称 之 
为 “ 套 接 字 的 进程 组 ID”， 因 为 存放 该 ID 的 变量 是 socket 结 构 的 so_pgid 
成 员 (CTCPv2 第 438 页 ) 。 





include «fcntl.h» 


int fcntl(int fd, int cmd, ... /* int arg */ ); 











"ul: 若 成 功 则 取决 于 cmd， 若 出 错 则 








5 





为 -1 


每 种 描述 符 〈 包 括 套 接 字 描 述 符 ) 都 有 一 组 由 F_eETFL 命 令 获 取 或 
由 F_SETFL 命 令 设 置 的 文件 标志 。 其 中 影响 套 接 字 摘 述 符 的 两 个 标志 
三 | 
AE: 





0. NONBLOCK— —AE fH 3E XT/O; 
言 号 驱动 式 1/O。 


后 面 我 们 将 详细 讲述 这 两 个 特性 。 现 在 我 们 只 需 注意 ， 使 用 fent1 
开启 非 阻 塞 式 WO 的 典型 代码 将 是 : 


int flags; 


O ASYNC 





/* Set a socket as nonblocking */ 


if ( (flags = fcntl(fd, F GETFL, 0)) < 0) 
err sys("F GETFL error"); 

flags |= O_NONBLOCK; 

if (fcntl(fd, F SETFL, flags) < 0) 
err sys("F SETFL error"); 


下 面 是 你 可 能 会 遇 到 的 、 简 单 地 设置 所 期 望 标志 的 代码 : 


/* Wrong way to set a socket as nonblocking */ 
if (fcntl(fd, F SETFL, O NONBLOCK) < 0) 
err sys("F SETFL error"); 


这 段 代 码 在 设置 非 阻塞 标志 的 同时 也 清除 了 所 有 其 他 文件 状态 标 
志 。 设 置 某 个 文件 状态 标志 的 唯一 正确 的 方法 是 : 先 取得 当前 标志 ， 与 
新 标志 逻辑 或 后 再 设置 标志 。 


以 下 代码 关 财 非 阻 窗 标 志 ， 其 中 假设 flags 是 由 上 和 面 所 示 的 fcnt1 调 
用 来 设置 的 : 
flags &- -0 NONBLOCK; 


if (fcntl(fd, F SETFL, flags) « 0) 
err sys("F SETFL error"); 
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信号 SIGI0 和 SITGURG 与 其 他 信号 的 不 同 之 处 在 于 ， 这 两 个 信号 仅 在 
己 使 用 F_sETOWN 命 令 给 相关 套 接 字 指派 了 属 主 后 才 会 产生 。F_sETOWN 命 
令 的 整数 类 型 arg 参 数 既 可 以 是 一 个 正 整数 ， 指 出 接收 信号 的 进程 ID， 
也 可 以 是 一 个 负 整 数 ， 其 绝对 值 指出 接收 信号 的 进程 组 ID 。F_GETowN 命 
令 把 套 接 字 属 主 作为 fcnt1 函 数 的 返回 值 返回 ， 它 既 可 以 是 进程 ID (一 
个 正 的 返回 值 ) ， 也 可 以 是 进程 组 ID 〈 一 个 除 -1 以 外 的 负 值 ) 。 指 定 接 
收 信号 的 套 接 字 属 主 为 一 个 进程 或 一 个 进程 组 的 差别 在 于 : 前 者 仅 导 致 
单个 进程 接收 信号 ， 而 后 者 则 导致 整个 进程 组 中 的 所 有 进程 〈 也 许 不 止 
一 个 进程 ) 接收 信和 号 。 


使 用 socket 函 数 新 创建 的 套 接 字 并 没有 属 主 。 然 而 如 果 一 个 新 的 套 
接 字 是 从 一 个 监听 套 接 字 创建 来 的 ， 那 么 套 接 字 属 主将 由 已 连接 套 接 字 
从 监听 套 接 字 继承 而 来 〈 许 多 套 接 字 选项 也 是 这 样 继承 ， 见 TCPv2 第 
462 一 463 页 ) 。 




















7.12 "^£ 


套 接 字 选 项 从 非常 通用 〈 如 so_ERROR) 到 非常 专门 〈 如 IP 首 部 选 
项 ) 都 有 。 我 们 可 能 遇 到 的 最 稼 用 的 选项 
XE: So_KEEPALIVE、SO_RCVBUF、SOo_SNDBUF 和 So_REUSEADDR。 其 中 最 后 那 
个 选项 应 该 总 是 在 一 个 TCP 服 务 器 进程 调用 bind 之 前 预先 设置 (图 11- 
12) 。SO_BROADCAST 选 项 和 10 个 多 播 套 接 字 选 项 仅仅 分 别 适 用 于 进行 广 
播 或 多 播 的 应 用 程序 。 


许多 TCP 服 务 器 设置 So_KEEPALIVE 套 接 字 选项 以 自动 终止 一 个 半 开 
连接 。 该 选项 的 优点 在 于 它 由 TCP 层 处 理 ， 不 需要 有 一 个 应 用 级 的 休止 
状态 定时 器 ， 而 它 的 缺点 是 无 法 区 别 客户 主机 裔 让 和 到 客户 主机 连通 性 
的 暂时 丢失 。SCTP 提 供 了 17 个 应 用 程序 用 来 控制 传输 的 套 接 字 选 
项 。scTP_NODELAY 和 ScTP_MAXSEG 选 项 与 TcP_NODELAY 和 TCcP_MAXSEG 选 项 类 
似 ， 并 有 着 相同 的 功能 。 而 其 他 15 个 选项 为 应 用 程序 带 来 了 对 SCTP 栈 
的 更 佳 控制 。 我 们 将 在 第 23 章 讨论 其 中 许多 选项 的 用 途 。 


SO_LINGER 套 接 字 选项 使 得 我 们 能 够 更 好 地 控制 close 函 数 返 回 的 时 
机 ， 而 且 人 允许 我 们 强制 发 送 RST 而 不 是 TCP 的 四 分 组 连接 终止 序列 。 我 
们 必须 小 心 发 送 RST， 因 为 这 么 做 回避 了 TCP 的 TIME_WAIT 状 态 。 本 
时 候 无 法 提供 我 们 所 需 的 信息 ， 这 种 情况 下 应 用 级 ACK 
变 得 必要 。 


每 个 TCP 套 接 字 和 SCTP 套 接 字 都 有 一 个 发 送 绥 冲 区 和 一 个 接收 组 
冲 区 ， 每 个 UDP 套 接 字 都 有 一 个 接收 缓冲 区 。so_sNDBUF 和 So_RcvVBUF 套 
接 字 选 项 允许 我 们 改变 这 些 缓冲 区 的 大 小 。 这 两 个 选项 最 常见 的 用 途 是 
长 胖 管 道上 的 批量 数据 传送 。 长 胖 管 道 是 或 高 市 宽 或 长 延 时 的 TCP 连 
接 ， 通 常 使 用 RFC 1323 中 为 高 性 能 定义 的 扩展 。 劝 一 方面 ，UDP 套 接 字 
区 的 大 小 以 允许 内 核 在 应 用 进程 较 忙 时 排队 更 多 
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习题 


74 写 一 个 输出 默认 TCP 和 UDP 发 送 和 接收 缓冲 区 大 小 的 程序 ， 并 
在 你 有 访问 权限 的 系统 上 运行 该 程序 。 


7.2 ”将 图 1-5 做 如 下 修改 : 在 调用 connect 之 前 ， 调 用 getsockopt 得 
到 套 接 字 接收 缓冲 区 的 大 小 和 MSS， 并 输出 这 两 个 值 。connect 返 回 成 
功 后 ， 再 次 获取 这 两 个 套 接 字 选 项 并 输出 它们 的 值 。 值 变化 了 吗 ? 为 什 
么 ? 运行 本 客户 程序 两 个 实例 ， 一 个 连接 到 本 地 网 络 上 的 一 个 服务 器 ， 
另 一 个 连接 到 非 本 地 网 络 上 的 一 个 远程 服务 器 。MSS 变 化 吗 ? 为 什么 ? 
你 应 在 你 有 访问 权 的 任何 不 同 主机 上 运行 本 程序 。 


73 ”从 图 5-2 和 图 5-3 的 TCP 服 务 器 程序 以 及 图 5-4 和 图 5-5 的 TCP 客 
户 程序 开始 ， 修 改 客 户 程序 的 main 函 数 : 在 调用 exit 之 前 设置 so_LINGER 
套 接 字 选项 ， 把 作为 其 输入 的 linger 绪 构 中 的 1_onoff 成 员 设 置 为 
1，1_1inger 成 员 设置 为 0。 先 启动 服务 器 ， 然 后 启动 客户 。 在 客户 上 键 
入 一 行 或 两 行文 本 以 检验 操作 正常 ， 然 后 键入 EOF 以 终止 客户 ， 将 发 生 
什么 情况 ? 终止 客户 后 ， 在 客户 主机 上 运行 netstat， 碍 看 套 接 字 是 侣 
经 历 了 TIME_WAIT 状 态 。 


7.4 假设 有 两 个 TCP 客 户 在 同一 时 间 局 动 ， 都 设置 So_REUSEADDR 套 
接 字 选 项 ， 且 以 相同 的 本 地 IP 地 址 和 相同 的 端口 号 ( 壁 如 说 ，1500) 调 
用 bind， 但 一 个 客户 连接 到 198.69.10.2 的 端口 7000， 另 一 个 客户 连接 到 
198.69.10.2《〈 相 同 的 卫 地 址 ) 的 端口 8000。 阐 述 所 出 现 的 竞争 状态 。 


7.5 ”获取 本 书 中 例子 的 源 代码 ( 见 前 言 ) 并 编译 sock 程 序 (C.3 
TO 。 将 你 的 主机 划分 为 三 类 : (1) 没 有 多 播 文 持 ，(2) 有 多 播 文 持 但 不 
提供 So_REUSEPORT，(3) 有 多 播 支 持 且 提供 so_REUSEPORT。 试 着 在 同一 个 
端口 上 启动 sock 程 序 的 多 个 实例 作为 TCP 服 务 器 (-s 命 令 行 选项 ) ， 分 
别 捆绑 通 配 地 址 、 你 的 主机 的 某 个 接口 地 址 以 及 环 回 地 址 。 你 需要 指定 
SO0_REUSEADDR 选 项 ( -A 命令 行 选 项 ) 吗 ? 使 用 netstat 命 令 查 看 监听 套 接 


EE 


do 
































76 “继续 前 面 的 例子 ， 不 过 启动 的 是 作为 UDP 服务 器 〈-u 命 令 行 
选项 ) 的 两 个 实例 ， 捆 绑 相同 的 本 地 IP 地 址 和 端口 号 。 如 果 你 的 实现 支 


持 So_REUSEPORT， 试 着 用 它 “〈-T 命 令 行 选 项 ) 。 


7.7 ping 程序 的 许多 版 本 有 一 个 -d 标 志 用 于 开局 So_DpEBu6G 套 接 字 选 
项 ， 这 是 干什么 用 的 ? 


7.8 继续 我 们 在 讨论 TcP_NopELAY 套 接 字 选项 结尾 处 的 例子 。 假 设 
客户 执行 了 两 个 write 调用 : 第 一 个 写 4 字 节 ， 第 二 个 写 396 字 节 。 另 假 
设 服务 器 的 ACK 延 滞 时 间 为 100ms， 客 户 与 服务 器 之 间 的 RTT 为 
100ms， 服 务 器 处 理 客户 请 求 的 时 间 为 50ms。 男 一 个 时 间 线 图 展示 延 渍 
的 ACK 与 Nagle 算 法 的 相互 作用 。 


7.9 ”假设 设置 了 TcP_NODELAY 套 接 字 选 项 ， 重 做 上 个 习题 。 


7.40 假设 进程 调用 writev 一 次 性 处 理 完 4 字 节 缓冲 区 和 396 字 节 组 
冲 区 ， 重 做 习题 7.8。 


7.11 读 RFC 1122 [Barden 1989] 以 确定 延 滞 ACK 的 建议 间隔 。 
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712 ”图 5-2 和 图 5-3 中 的 服务 器 程序 什么 地 方 耗 时 最 多 ? 假设 服务 
器 设置 了 so_KEEPALIVE 套 接 字 选项 ， 而 且 连 接 上 没有 数据 在 交换 ， 如 果 
客户 主机 骨 泪 且 没 有 重启 ， 那 将 发 生 什 么 ? 


743 图 5-4 和 图 5-5 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 设 
置 了 so_KEEPALIVE 套 接 字 选项 ， 而 且 连 接 上 没有 数据 在 交换 ， 如 果 服 务 
器 主机 骨 尝 且 没 有 重启 ， 那 将 发 生 什么 ? 


7.14 ”图 5-4 和 图 6-13 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 设 
置 了 so_KEEPALIVE 套 接 字 选项 ， 而 且 连 接 上 没有 数据 在 交换 ， 如 果 服 务 
器 主机 骨 尝 且 没 有 重启 ， 那 将 发 生 什么 ? 


7.45 ”假设 客户 和 服务 器 都 设置 了 so_KEEPALIVE 套 接 字 选 项 。 连 接 
两 端 维护 连 通 性 ， 但 是 连接 上 没有 应 用 数据 在 交换 。 当 保持 存活 定时 器 
每 2 小 时 到 期 时 ， 在 连接 上 有 多 少 TCP 分 节 被 交换 ? 

7.16 ”几乎 所 有 实现 都 在 头 文件 <sys/socket .h> 中 定义 了 


SO_ACCEPTCON 销 值 ， 不 过 我 们 没有 讲述 这 个 选项 。 阅 读 L Lanciani 
1996] ， 弄 清 该 选项 为 什么 存在 。 
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QD 待 确认 数据 Coutstanding data) 直译 为 未 决 数据 ， 也 就 是 我 们 的 TCP 
已 发 送 但 还 在 等 竺 对 端 确 认 的 数据 ， 参 见 RFC 793 图 4， 束 是 其 中 标 为 2 
的 部 分 。 从 涵义 上 讲 ， 采 用 未 决 一 词 更 确切 些 ， 因 为 其 中 有 “ 悬 ” 而 “未 
WARRE, RRRA ORIS, RR RARBG MAR EIU o 
采用 竺 确认 一 词 未 能 体现 出 “县 ”的 含义 ， 也 就 是 说 在 发 送 队 列 中 到 底 有 
没有 发 送 的 数据 也 是 有 待 确认 的 。 鉴 于 采用 未 决 说 法 略 显 突 邦 ， 本 书 没 
有 采用 ; 符 确 认 说 法 的 含义 读者 自明 。 一 一 译 者 注 











第 8 章 ”基本 UDP 套 接 字 编 程 


8.1 概述 


在 使 用 TCP 编 写 的 应 用 程序 和 使 用 UDP 编写 的 应 用 程序 之 间 存 在 一 
些 本 质 差 异 ， 其 原因 在 于 这 两 个 传输 层 之 间 的 差别 : UDP 是 无 连接 不 可 
靠 的 数据 报 协 议 ， 非 常 不 同 于 TCP 提 供 的 面向 连接 的 可 靠 字 节 流 。 然 而 
相 比 TCP， 有 些 场合 确实 更 适合 使 用 UDP， 我 们 将 在 22.4 节 探讨 这 个 设 
计 选 择 。 使 用 UDP 编 写 的 一 些 常 见 的 应 用 程序 有 : DNS (域名 系统 ) 、 
NFS (网 络 文件 系统 ) 和 SNMP (简单 网 络 管理 协议 ) 。 


图 8-1 给 出 了 典型 的 UDP 客户 /服务 器 程序 的 函数 调用 。 客 户 不 与 服 
务 器 建立 连接 ， 而 是 只 管 使 用 sendto 函 数 〈 将 在 下 一 节 介绍 ) 给 服务 器 
发 送 数据 报 ， 其 中 必须 指定 目的 地 《 即 服 务 器 ) 的 地 址 作为 参数 。 类 似 
地 ， 服 务 喜 不 接受 来 自 客 户 的 连接 ， 而 是 只 管 调用 recvfrom 函 数 ， 等 符 
来 自 某 个 客户 的 数据 到 达 。recvfrom 将 与 所 接收 的 数据 报 一 道 返 回 客 户 
的 协议 地 址 ， 因 此 服务 器 可 以 把 啊 应 发 送 给 正确 的 客户 。 
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图 8-1 UDP 客户 /服务 器 程序 所 用 的 套 接 字 函 数 


图 8-1 所 示 为 UDP 客户 /服务 器 交 互 中 发 生 的 典型 情形 的 时 间 线 图 。 
我 们 可 以 将 该 图 和 图 4-1 所 示 的 TCP 的 典型 交互 进行 比较 。 


本 章 中 我 们 将 介绍 用 于 UDP 套 接 字 的 两 个 新 水 数 recvfrom 和 
sendto, 并 使 用 UDP 重 写 我 们 的 回 射 客户 /服务 器 程序 ， 不 将 介绍 
connect 了 图 数 在 UDP 套 接 字 中 的 用 法 以 及 异步 错误 这 个 概念 








8.2 recvfrom*#llsendtork 2A 


这 两 个 函数 类 似 于 标准 的 read 和 write 函数 ， 不 过 需要 三 个 额外 的 
参数 。 


— 


#include <sys/socket.h> 


ssize_t recvfrom(int sockfd, void *buff, size_t nbytes, int flags, 
struct sockaddr *from, socklen t *addrlen); 


ssize t sendto(int sockfd, const void *buff, size t nbytes, int flags, 
const struct sockaddr *to, socklen t *addrlen); 
均 返 回 : 若 成 功 则 为 读 或 写 的 字 节 数 ， 若 出 错 则 为 -1 
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前 三 个 参数 sockfa、buff 和 mnbytes 等 同 于 read 和 write 函数 的 三 个 参 
数 : 描述 符 、 指 向 读 入 或 写 出 缓冲 区 的 指针 和 读 写 字 节 数 。 


flags 参 数 将 在 第 14 间 中 讨论 recv、send、recvmsg 和 sendmsg 等 函数 
时 再 介绍 ， 本 章 中 重 写 简单 的 UDP 回 射 客 户 / 服 务 器 程序 用 不 着 它们 。 
时 下 我 们 总 是 把 flags 置 为 0。 


sendto 的 to 参数 指 同 一 个 含有 数据 报 接 收 者 的 协议 地 址 (例如 IP 地 
址 及 端口 号 ) 的 套 接 字 地 址 结构 ， 其 大 小 由 addrlen 参 数 指定 。recvfrom 
的 from 参 数 指向 一 个 将 由 该 函数 在 返回 时 填写 数据 报 发 送 者 的 协议 地 址 
的 套 接 字 地 址 结构 ， 而 在 该 套 接 字 地 址 结构 中 填写 的 字 节 数 则 放 
在 addrlen 参 数 所 指 的 整数 中 返回 给 调用 者 。 注 意 ，sendto 的 最 后 一 个 参 
数 是 一 个 整数 值 ， 而 recvfrom 的 最 后 一 个 参数 是 一 个 指向 整数 值 的 指针 
〈 即 值 -结果 参数 ) 。 


recvfrom 的 最 后 两 个 参数 类 似 于 accept 的 最 后 两 个 参数 : 返回 时 其 
中 套 接 字 地 址 结构 的 内 容 告诉 我 们 是 谁 发 送 了 数据 报 〈UDP 情 况 下 ) 或 
是 谁 发 起 了 连接 (TCP) 。sendto 的 最 后 两 个 参数 类 似 于 connect 
的 最 后 两 个 参数 : 调用 时 其 中 套 接 字 地 址 结构 被 我 们 填 入 数据 报 将 发 往 
CUDP 情 况 下 ) 或 与 之 建立 连接 (CTCP 情 况 下 ) 的 协议 地 址 。 


这 两 个 阔 数 部 把 所 读 写 数据 的 长 度 作为 函数 返回 值 。 在 recvfrom 使 
用 数据 报 协议 的 典型 用 途中 ， 返 回 值 就 是 所 接收 数据 报 中 的 用 户 数 据 
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写 一 个 长 度 为 0 的 数据 报 是 可 行 的 。 在 UDP 情况 下 ， 这 会 形成 一 个 
只 包含 一 个 IP 首 部 〈 对 于 IPv4 通 常 为 20 个 字 节 ， 对 于 IPv6 通 常 为 40 个 字 
节 ) 和 一 个 8 字 节 UDP 首 部 而 没有 数据 的 IP 数 据 报 。 这 也 意味 着 对 于 数 
据 报 协议 ，recvfrom 返 回 0 值 是 可 接受 的 : 它 并 不 像 TCP 套 接 字 上 read 返 
回 0 值 那样 表示 对 端 已 关闭 连接 。 既 然 UDP 是 无 连接 的 ， 因 此 也 就 没有 
诸如 关闭 一 个 UDP 连接 之 类 事情 。 


如 果 recvfrom 的 Fom 人 参数 是 一 个 空 指 针 ， 那 么 相应 的 长 度 参数 
Caddrlen) 也 必须 是 一 个 空 指 针 ， 表 示 我 们 并 不 关心 数据 发 送 者 的 协议 
地 址 。 


recvfrom 和 sendto 都 可 以 用 于 TCP， 尺 管 通常 没有 理由 这 样 做 。 








8.3 UDPHINSIKAA FER: main 函数 


现在 ， 我 们 用 UDP 重新 编写 第 5 章 中 简单 的 回 射 客户 /服务 器 程序 。 
我 们 的 UDP 客 户 程序 和 服务 器 程序 依循 图 8-1 中 所 示 的 函数 调用 流程 。 
E 它们 所 使 用 的 函数 ， 图 8-3 则 给 出 了 服务 器 程序 的 main 函 
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图 8-2 ”使 用 UDP 的 简单 回 射 客户 /服务 器 
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-3 ug echcisaockLd, {58 *) ezliacdr, sizeclívcliacd-)):; 





图 8-3 UDP 回 射 服务 器 程序 
创建 UDP 套 接 字 ， 捆 绑 服 务 器 的 众所周知 端口 


7-12 FRA THK socket ALN PS SAE 
为 SocK_DGRAM 〈IPv4 协 议 中 的 数据 报 套 接 字 ) 创建 一 个 UDP 套 接 字 。 正 
如 TCP 服 务 器 程序 的 例子 ， 用 于 bind 的 服务 器 IPv4 地 址 被 指定 
为 INADDR_ANY， 而 服务 器 的 众所周知 端口 是 头 文件 <unp.h> 中 定义 的 


SERV_PORT 常 值 。 





13 接着 ， 调 用 函数 dg_echo 来 执行 服务 器 的 处 理工 作 。 


8.4 UDPIFISIKS 4EY: dg_echork 2 


8-423 H1 f dg_echoPhi a. 


hbíde ec 
| dine’ nce "penn.h" 
2 void 
3 dq scho(izt socktd, SA *oclisddr, socxlen t cLI.en) 
"Wr M = 
5 nL 
6 sock-on L lun 
7 char asya [EXLINE]: 
bs lor { - 2) § 
9 lm = arinn 
10 ”一 Hecufromisockfe, mesg, *^XILIM", 2, pelinddr, &len); 
11 SezxdLo([soc«Ld, mesg, i, J, pcliaddr, Lend: 
17 | 
13 } 

eg 


18-4 ”dg_echo 函 数 : 在 数据 报 套 接 字 上 回 射 文本 行 
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读数 据 报 并 回 射 给 发 送 者 


8-12 该 函数 是 一 个 简单 的 循环 ， 它 使 用 recvfrom 读 入 下 一 个 到 达 
服务 器 端口 的 数据 报 ， 再 使 用 sendto 把 它 发 送 回 发 送 者 。 


尽管 这 个 函数 很 简单 ， 不 过 也 有 许多 细节 问题 需要 考虑 。 首 先 ， 该 
函数 永 不 终止 ， 因 为 UDP 是 一 个 无 连接 的 协议 ， 它 没有 像 TCP 中 EOF 之 
类 的 东西 。 


其 次 ， 该 函数 提供 的 是 一 个 迭代 服务 器 Citerative server) ， 而 不 是 
像 TCP 服 务 堪 那样 可 以 提供 一 个 并 发 服务 器 。 其 中 没有 对 fork 的 调用 ， 
因此 单个 服务 器 进程 就 得 处 理 所 有 客户 。 一 般 来 说 ， 大 多 数 TCP 服 务 器 
是 并 发 的 ， 而 大 多 数 UDP 服务 器 是 迭代 的 。 


对 于 本 套 接 字 ，UDP 层 中 隐 含 有 排队 发 生 。 事 实 上 每 个 UDP 套 接 字 
都 有 一 个 接收 缓冲 区 ， 到 达 该 套 搂 字 的 每 个 数据 报 都 进入 这 个 套 接 字 接 
收 缓 冲 区 。 当 进程 调用 recvfrom 时 ， 绥 冲 区 中 的 下 一 个 数据 报 以 
FIFO (先入 先 出 ) 顺序 返回 给 进程 。 这 样 ， 在 进程 能 够 读 该 套 接 字 中 任 





何 已 排 好 队 的 数据 报 之 前 ， 如 果 有 多 个 数据 报到 达 该 套 接 字 ， 那 么 相继 
到 达 的 数据 报 仅 仅 加 到 该 套 接 字 的 接收 缓冲 区 中 。 然 而 这 个 缓冲 区 的 大 
， 。 我 们 已 在 7.5 节 随 so_RcvBUF 套 接 字 选项 讨论 了 这 个 大 小 以 
及 如 何 增 大 它 。 


图 8-5 总 结 了 第 5 章 中 的 TCP 客 户 / 服 务 器 在 两 个 客户 与 服务 器 建立 连 
接 时 的 情形 。 








eas 


图 8-5 “两 个 客户 的 TCP 客 户 /服务 器 小 结 


服务 器 主机 上 有 两 个 已 连接 套 接 字 ， 其 中 每 一 个 都 有 各 日 的 套 接 字 
接收 缓冲 区 。 


图 8-6 展 示 了 两 个 客户 发 送 数据 报到 UDP 服务 器 的 情形 。 

















trig 








图 8-6 ”两 个 客户 的 UDP 客户 /服务 器 小 结 
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其 中 只 有 一 个 服务 喜 进 程 ， 它 仅 有 的 单个 套 接 字 用 于 接收 所 有 到 达 


的 数据 报 并 发 回 所 有 的 响应。 该 套 接 字 有 一 个 接收 缓冲 区 用 来 存放 所 到 
达 的 数据 报 。 





图 8-3 中 的 main 函 数 是 协议 相关 的 ( 它 创建 一 个 AF_INET 协 议 的 套 接 

字 ， 分 配 并 初始 化 一 个 IPv4 套 接 字 地 址 结构 ) ， 而 dg_echo 函 数 是 协议 
无 关 的 。dg_echo 协 议 无 关 的 理由 如 下 : 调用 者 在 我 们 的 例子 中 
为 main 商 数 》 必 须 分 配 二 个 正确 大 小 的 套 接 字 地 址 结构 ， 且 指向 该 结构 
的 指针 和 该 结构 的 大 小 都 必须 作为 参数 传递 给 dg_echo。dg_echo 绝 不 但 
看 这 个 协议 相关 结构 的 内 容 ， 而 是 简单 地 把 一 个 弟 向 该 结构 的 指针 传递 
给 recvfrom 和 sendto。recvfrom 返 回 时 把 客户 的 IP 地 址 和 端口 号 填 入 该 
结构 ， 而 随后 作为 目的 地 址 传递 给 sendto 的 又 是 同一 个 指针 

Cpcliaddr) ， 这 样 所 接收 的 任何 数据 报 束 被 回 财 给 发 送 该 数据 报 的 客 
Pe 


8.5 UDP 回 射 客 户 程 序 :， mainek ži 


图 8-7 给 出 了 UDP 客户 程序 的 main 函 数 。 


ticle what 
l1 tiucl. idc 
3 main(int arq ar 
int ackla: 
stzact )Ckacidr i = cdz: 
7 1f qvas | 3) 
3 err guüití("usage: sacecli «IF lze 
3 vaddv, siznofisorvndd 
la Sues in fimily 一 Ab MI 
I^ zm in port — hanna [SERY or sts 
12 Iroat n Wo NEU, arse orvaddr .sin_arkir} : 
13 sock — SockoL4AF INET, K DERG 
14 zz £(ctdin, ktd, ISA ervžddr, aizecfiíaervauücr 
l xit 
| 
ucpol dnl 


图 8-7 UDP 回 射 客户 程序 








把 服务 器 地 址 填 入 套 接 字 地 址 结构 


9-12 ”把 服务 需 的 耳 地 址 和 端口 号 填 入 一 个 IPv4 的 套 接 字 地 址 结 
构 。 该 结构 将 传递 给 dg_c1li 函 数 ， 以 指明 数据 报 将 发 往 何 处 。 


13-14 ”创建 一 个 UDP 套 接 字 ， 然 后 调用 dg_cli。 
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8.6 UDP 回 射 客户 程 序 : dg dik 2 
图 8-8 给 出 了 dg_cli 函 数 ， 它 执行 客户 的 大 部 分 处 理工 作 。 


Bb/de elic 
1 fine: ui: "anp. ht 
2 vuld 
3 dg c-i(TILS *ly, inl suckld, cons. Sh *pscrcyaddr, secklen l servici} 
4 í 
5 int. n; 
i aand] ine [Mex INE], recvlire[MAX , NK | 1]: 
While ('gnts(sendlirn, MAXIM, fa) !— NUE) 1 
SczdLlolsaoacxLd, scucliro, slooen(sendline), O, pscrwaddz, scrwlon); 
" — Rkacrfrom(sceckfa, racvline, MAXI. WIE, f, NULL, NULL? 
16 rocvlino n] ~ 3; f* cull vorminalc */ 
11 Tpuls{rocevling, sluout)s 
12 | 
13 
libdg clic 


图 8-8 dg clik: 客户 处 理 循环 


7-12 客户 处 理 循环 中 有 四 个 步骤 : 使 用 fgets 从 标准 输入 读 入 一 
个 文本 行 ， 使 用 sendto 将 该 文本 行 发 送 给 服务 器 ， 使 用 recvfrom 读 回 服 
务 器 的 回 射 ， 使 用 fputs 把 回 射 的 文本 行 显示 到 标准 输出 。 


我 们 的 客户 尚未 请 求 内 核 给 它 的 套 接 字 指 派 一 个 临时 端口 。 (对 于 
TCP 客 户 而 言 ， 我 们 说 过 connect 调 用 正 是 这 种 指派 发 生 之 处 。) 对 于 一 
个 UDP 套 接 字 ， 如 果 其 进程 首次 调用 sendto 时 它 没 有 绑 定 一 个 本 地 端 
口 ， 那 么 内 核 就 在 此 时 为 它 选 择 一 个 临时 端口 。 跟 TCP 一 样 ， 客 户 可 以 
显 式 地 调用 bind， 不 过 很 少 这 样 做 。 


注意 ， 调 用 recvfrom 指 定 的 第 五 和 第 六 个 参数 是 空 指针 。 这 告知 内 
核 我 们 并 不 关心 应 答 数据 报 由 谁 发送 。 这 样 做 存在 一 个 风险 : 任何 进程 
不 论 是 在 与 本 客户 进程 相同 的 主机 上 还 是 在 不 同 的 主机 上 ， 都 可 以 癌 本 
客户 的 IP 地 址 和 端口 友 送 数据 报 ， 这 些 数据 报 将 被 客户 读 入 并 被 认为 是 
服务 器 的 应 答 。 我 们 将 在 8.8 节 解决 这 个 问题 。 


与 服务 占 的 dg_echo 函 数 一 样 ， 客 户 的 dg_c1li 函 数 也 是 协议 无 关 
的 ， 不 过 客户 的 main 函 数 是 协议 相关 的 。main 函 数 分 配 并 初始 化 一 个 菜 
个 协议 类 型 的 套 接 字 地 址 结构 ， 并 把 指向 该 结构 的 指针 及 该 结构 的 大 小 











传递 给 d 
sdg_cli。 


8.7 ”数据 报 的 丢失 


我 们 的 UDP 客户 /服务 器 例子 是 不 可 靠 的 。 如 果 一 个 客户 数据 报 丢 
失 【〔( 壁 如 说 ， 被 客户 主机 与 服务 器 主机 之 间 的 某 个 路 由 器 丢弃 ) ， 客 户 
将 永远 阻塞 于 dg_cl1i 函 数 中 的 recvfrom 调 用 ， 等 待 一 个 永远 不 会 到 达 的 
服务 器 应 答 。 类 似 地 ， 如 果 客 户 数 据 报到 达 服 务 器 ， 但 是 服务 器 的 应 管 
丢失 了 ， 客 户 也 将 永远 阳 塞 于 recvfrom 调 有 用。 防止 这 样 永 久 阻 寨 的 一 般 
ee! 的 recvfrom 调 用 设置 一 个 超时 。 我 们 将 在 14.2 节 继续 讨论 
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仅仅 给 recvfrom 调 用 设置 超时 并 不 是 完整 的 解决 办 法 。 举 例 来 说 ， 
如 果 确 实 超 时 了 ， 我 们 将 无 从 判定 超时 原因 是 我 们 的 数据 报 没 有 到 达 服 
务 器 ， 还 是 服务 器 的 应 答 没有 回 到 客户 。 如 果 客 户 的 请 求 是 “从 账户 A 往 
账户 B 转 一 定数 目的 钱 ? 而 不 是 我 们 的 简单 回 射 服务 器 例子 ， 那 么 请 求 丢 
失 和 应 答 丢 失 是 极 不 相同 的 。 我 们 将 在 22.5 节 具体 讨论 如 何 给 UDP 客户 / 
服务 器 程序 增加 可 靠 性 。 





8.8 ”验证 接收 到 的 啊 应 


在 8.6 节 结尾 我 们 提 到 ， 知 着 客户 临时 闯 口 号 的 任何 进程 都 可 往 客 
户 发 送 数据 报 ， 而 且 这 些 数据 报 会 与 正常 的 服务 需 应 答 混 杂 。 我 们 的 解 
决 办 法 是 修改 图 8-8 中 的 recvfrom 调 用 以 返回 数据 报 发 送 者 的 耳 地 址 和 端 
口号 ， 保 留 来 目 数据 报 所 发 往 服务 需 的 应 答 ， 而 忽略 任何 其 他 数据 报 。 
然而 这 样 做 照样 存在 一 些 缺 陷 ， 我 们 马上 就 会 看 到 。 


我 们 首先 把 客户 程序 的 main 函 数 〈( 图 8-7) 改 为 使 用 标准 回 射 服务 
器 〈 图 2-13) 。 这 只 需 把 以 下 赋值 语句 


servaddr.sin port = htons(SERV PORT); 





PRN 


servaddr.sin port = htons(7); 





这 样 ， 我 们 的 客户 残 可 以 使 用 任何 运行 标准 回 财 服务 器 的 主机 了 。 


我 们 接着 重 写 dg_cli 函 数 以 分 配 另 一 个 套 接 字 地 址 结构 用 于 存放 
由 recvfrom 返 回 的 结构 ， 如 图 8-9 所 示 。 
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proply adde — M-clic-(sczvion); 
1C whi-ce {Tyelstsendiius, MAXLINE, Lp) != NULL) / 
11 Screotc(sock^d, sendiine, strlen(serndline), 23, pac"was&dsz, scrvlcn?): 


Ter = scrvlen; 


13 n — decvw?rem(nonck?c, recw lire, MéxbhIN*, C, mreply acó-, álen)? 


14 iz ilen !— servlen memzmpir2ervaddr, prercy ador, len; !- J} | 

1s prirll("reply Loom ss (ignuorsd)Wr", Sock nilopiprzeonly edac, Lend): 
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1S Pouls(resvline, sleoul): 

HT 


uepehisenvweehaddar à 
图 8-9 验证 返回 的 套 接 字 地 址 的 dg_cli 函 数 版 本 
分 配 另 一 个 套 接 字 地 址 结构 


o ”我 们 调用 malloc 来 分 配 男 一 个 套 接 字 地 址 结构 。 注 意 dg_cli 函 
数 仍然 是 协议 无 关 的 ， 因 为 我 们 并 不 关心 所 处 理 套 接 字 地 址 结构 的 类 
型 ， 而 只 是 在 malloc 调 用 中 使 用 其 大 小 。 


比较 返回 的 地 址 


12-18 ”在 recvfrom 的 调用 中 ， 我 们 通知 内 核 返 回 数据 报 发 送 者 的 
地 址 。 我 们 首先 比较 由 recvfrom 在 值 - 结 果 参 数 中 返回 的 长 度 ， 然 后 
用 memcmp 比 较 套 接 字 地 址 结构 本 里 。 


我 们 在 3.2 节 说 过 ， 即 使 套 接 字 地 址 结构 包含 一 个 长 上 度 字 7 段 ， 我 们 
也 不 必 设 置 或 检查 它 。 然 而 此 处 memcmp 比 较 两 个 套 接 字 地 址 结构 中 的 每 
个 数据 字 节 ， 而 内 核 返 回 套 接 字 地 址 结构 时 ， 其 中 长 度 字 段 是 设置 的 ; 
因此 对 于 本 例 ， 与 之 比较 的 男 一 个 套 接 字 地 址 结构 也 必须 预先 设置 其 长 
度 字 段 。 否 则 ，memcmp 将 比较 一 个 值 为 0 的 字 节 (因为 没有 设置 长 度 字 
段 ， 和 一 个 值 为 16 的 字 节 假设 具体 为 sockaddr_in 结 构 )， 结 果 自 然 
不 匹配 。 











如 果 服 务 器 运行 在 一 个 只 有 单个 IP 地 址 的 主机 上 ， 那 么 这 个 新 版 本 
的 客户 工作 正常 。 然 而 如 果 服 务 器 主机 是 多 宿 的 ， 该 客户 就 有 可 能 
aa a 
Fo 


macosx % host freebsd4 

freebsd4.unpbook.com has address 172.24.37.94 
freebsd4.unpbook.com has address 135.197.17.100 
macosx % udpcli02 135.197.17.100 

hello 

reply from 172.24.37.94:7 (ignored) 

goodbye 

reply from 172.24.37.94:7 (ignored) 


我 们 指定 的 服务 器 人 P 地 址 不 与 客户 主机 共享 同一 个 子 网 。 


这 样 指 定 服务 器 IP 地 址 通常 是 允许 的 。 中 大 多 数 IP 实 现 接受 目的 地 
址 为 本 主机 任 一 JP 地址 的 数据 报 ， 而 不 管 数据 报到 达 的 接口 TCPvV2 第 
217 一 219 页 ) . RFC 1122 [Braden 1989] 称 之 为 弱 端 系统 模型 (weak 
end system model) 。 如 果 一 个 系统 实现 的 是 该 RFC 中 所 说 的 强 问 系统 模 
型 (strong end system model) ， 那 么 它 将 只 接受 到 达 接 口 与 目的 地 址 一 
致 的 数据 报 。 
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recvfrom 返 回 的 IP 地 址 (UDP 数据 报 的 源 IP 地 址 ) 不 是 我 们 所 发 送 
数据 报 的 目的 耳 地 址 。 当 服务 器 发 送 应 答 时 ， 目 的 耳 地 址 是 
172.24.37.94。 主 机 freebsd4 内 核 中 的 路 由 功能 为 之 选择 172.24.37.78 作 
为 外 出 接口 。 既 然 服 务 器 没有 在 其 套 接 字 上 绑 定 一 个 实际 的 IP 地 址 ( 服 
务 器 绑 定 在 其 套 接 字 上 的 是 通 配 卫 地 址 ， 这 一 点 可 通过 在 freebsd4 上 运 
行 netstat 来 验证 ) ， 因 此 内 核 将 为 封装 这 些 应 答 的 IP 数 据 报 选择 源 地 
址 。 选 为 源 地 址 的 是 外 出 接口 的 主 IP 地 址 〈(TCPv2 第 232 一 233 页 ) 。 还 
有 ， 既 然 它 是 外 出 接口 的 主 卫 地址 ， 如 果 我 们 指定 发 送 数 据 报 到 该 接口 
的 某 个 非 主 IP 地 址 ( 即 一 个 IP 别 名 〉 ， 那 么 也 将 导致 图 8-9 版 本 客户 程序 
的 测试 失败 。 


一 个 解决 办 法 是 : 得 到 由 recvfrom 返 回 的 JP 地 址 后 ， 客 户 通过 在 
DNS (11%) 中 得 找 服务 器 主机 的 名 字 来 验证 该 主机 的 域名 《而 不 是 
它 的 耳 地 址 ) 。 另 一 个 解决 办 法 是 : UDP 服务 器 给 服务 器 主机 上 配置 的 
每 个 IP 地 址 创建 一 个 套 接 字 ， 用 bind 捆 绑 每 个 IP 地 址 到 各 自 的 套 接 字 ， 





然后 在 所 有 这 些 套 接 字 上 使 用 select 〈 等 待 其 中 任何 一 个 变 得 可 读 ) ， 
再 从 可 读 的 套 接 字 给 出 应 答 。 既 然 用 于 给 出 应 答 的 套 接 字 上 绑 定 的 下地 
址 就 是 客户 请 求 的 目的 耳 地 址 《否则 该 数据 报 不 会 被 投递 到 该 套 接 
字 ) ， 这 束 保 证 应 答 的 源 地 址 与 请 求 的 目的 地 址 相同 。 我 们 将 在 22.6 市 
给 出 一 个 这 样 的 例子 。 

在 多 答 Solaris 系 统 上 ， 服 务 器 应 答 的 源 IP 地 址 就 是 客户 请 求 的 目的 
IP 地 址 。 本 节 讲 述 的 情形 针对 源 自 Berkeley 的 实现 ， 这 些 实现 基于 外 出 
接口 选择 源 IP 地 址 。 











8.9 ”服务 器 进程 未 运行 


我 们 下 一 个 要 检查 的 情形 是 在 不 局 动 服务 器 的 前 提 下 局 动 客户 。 如 
打 我 们 这 么 做 后 在 客户 上 键入 一 行文 本 ， 那 么 什么 也 不 有 发生。 客户 永远 
阻 时 于 它 的 recvfrom 调 用 ， 等 竺 一 个 永 不 出 现 的 服务 器 应 答 。 然 而 这 是 
一 个 很 好 的 例子 ， 它 要 求 我 们 更 多 地 了 解 底层 协议 以 理解 网 络 应 用 进程 
TÉRIET A: 


首先 ， 我 们 在 主机 macosx 上 局 动 tcpdump， 然 后 在 同一 个 主机 上 局 
动 客 户 ， 指 定 主机 freebsd4 为 服务 器 主 机 。 接 着 ， 我 们 键入 一 行文 本 ， 
不 过 这 行文 本 没有 被 回 射 。 

macosx % udpcliO01 172.24.37.94 


hello, world 我 们 键入 这 一 行 
但 没有 任何 内 容 回 射 回来 














图 8-10 给 出 了 tcpdump 的 输出 。 


i 0.4 arp who-has freebsd4 tal] macosx 
0.002575 { 0.0036] arp rep-y freensd4 is-st 0:40:5:42:d6:de 
0.903601 ; U.U0CU) macosx.51139 > frocbod4.9377: udp i3 


0.909781 {| 0.0062) freabec4 > macosx: icmo: freebsdé udp port 9877 unreachable 








图 8-10” 当 服务 器 主机 上 未 局 动 服务 器 进程 时 tcpdump 的 输出 
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首先 我 们 注意 到 ， 在 客户 主机 能 够 往 服务 器 主机 发 送 那 个 UDP 数据 
报 之 前 ， 需 要 一 次 ARP 请 求 和 应 答 的 交换 。《 我 们 把 这 个 交换 保留 
在 tcpdump 的 输出 中 ， 是 为 了 强调 在 IP 数 据 报 可 发 往 本 地 网 络 上 男 一 个 
主机 或 路 由 器 之 前 ， 还 是 有 可 能 出 现 ARP 请 求 -应 答 的 。) 


我 们 从 第 3 行 看 到 客户 数据 报 发 出 ， 然 而 从 第 4 行 看 到 ， 服 务 器 主机 
响应 的 是 一 个 "port unreach-able" 〈 端 口 不 可 达 ) ICMP 消 息 。【 长 度 13 
是 12 个 字符 加 换行 符 。) 不 过 这 个 ICMP 错 误 不 返回 给 客户 进程 ， 其 原 
因 我 们 稍 后 讲述 。 客 户 永 远 阻 塞 于 图 8-8 中 的 recvfrom 调 用 。 我 们 还 指出 
ICMPv6 也 有 端口 不 可 达 错 误 类 型 ， 类 似 于 ICMPv4《〈 见 图 A-15 和 图 A- 
160 ， 因 此 这 里 讨论 的 结果 对 于 IPv6 也 类 似 。 











我 们 称 这 个 ICMP 错 误 为 异步 错误 Casynchronous error) 。 该 错误 
由 sendto 引 起 ， 但 是 sendto 本 身 却 成 功 返 回 。 回 顾 2.11 节 ， 我 们 知道 从 
UDP 输出 操作 成 功 返 回 仅仅 表示 在 接口 输出 队列 中 具有 存放 所 形成 也 数 
据 报 的 空间 。 该 ICMP 错 误 直 到 后 来 才 返 回 〈( 图 8-10 所 示 为 4ms 之 后 )， 
这 就 是 称 其 为 异步 的 原因 。 


一 个 基本 规则 是 : 对 于 一 个 UDP 套 接 字 ， 由 它 引 发 的 异步 错误 却 并 
不 返回 给 它 ， 除 非 它 已 连接 。 我 们 将 在 8.11 市 讨论 如 何 给 UDP 套 接 字 调 
用 connect。 很 少 有 人 明白 套 接 字 最 初 实现 时 为 什么 做 此 设计 决策 。 
《实现 内 涵 在 TCPv2 第 748 一 749 页 讨论 。) 


考虑 在 单个 UDP 套 接 字 上 接连 发 送 3 个 数据 报 给 3 个 不 同 的 服务 器 

( 即 3 个 不 同 的 卫 地 址 ) 的 一 个 UDP 客户 。 该 客户 随后 进入 一 个 调 
用 recvfrom 读 取 应 答 的 循环 。 其 中 有 2 个 数据 报 被 正确 递送 〈 也 束 是 
说 ，3 个 主机 中 有 2 个 在 运行 服务 器 ) ， 但 是 第 三 个 主机 没有 运行 服务 
器 。 第 三 个 主机 于 是 以 一 个 ICMP 端 口 不 可 达 错 误 啊 应 。 这 个 ICMP 出 错 
消息 包含 引起 错误 的 数据 报 的 卫 首 部 和 UDP 首部 。 (ICMPv4 和 ICMPv6 
出 错 消息 总 是 包含 了 首部 和 所 有 的 UDP 首部 或 部 分 TCP 首 部 ， 以 便 其 接 
收 者 确定 由 哪个 套 接 字 引发 该 错误 ， 如 图 28-21 和 图 28-22 所 示 。 ) 发 送 
这 3 个 数据 报 的 客户 需要 知道 引发 该 错误 的 数据 报 的 目的 地 址 以 区 分 究 
竟 是 哪 一 个 数据 报 引 发 了 错误 。 但 是 内 核 如 何 把 该 信息 返回 给 客户 进程 
WE? recvfrom 可 以 返回 的 信息 仅 有 errno 值 ， 它 没有 办 法 返回 出 错 数 据 
报 的 目的 IP 地 址 和 目的 UDP 端 口号 。 因 此 做 出 决定 : 仅 在 进程 已 将 其 
UDP 套 接 字 连接 到 恰恰 一 个 对 端 后 ， 这 些 异 步 错 误 才 返回 给 进程 。 


只 要 so_BspcoMPAT 套 接 字 选 项 没有 开启 ，Linux 其 至 对 未 连接 的 套 接 
字 也 返回 大 多 数 ICMP“destination unreachable”( 目 的 地 不 可 达 ) 错误 。 
图 A-15 中 除 代 码 为 0、1、4、5、11 和 12 之 外 的 所 有 ICMP 目 的 地 不 可 达 
错误 均 被 返回 。 

我 们 将 在 28.7 节 再 次 讨论 UDP 套 接 字 上 异步 错误 的 这 个 问题 ， 并 给 
CLE 我 们 目 己 的 守护 进程 获取 未 连接 套 接 字 上 这 些 错 误 的 简便 方 
Vs 
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8.10 ” ”UDP 程序 例子 小 结 


图 8-11 以 圆 点 的 形式 给 出 了 在 客户 发 送 UDP 数 据 报时 必须 指定 或 选 
择 的 四 个 值 。 


socket (!) 
seadto () 






{i ARES AY 


re 4 
Cx Bir jS] om LI S 








A A IPH hl: IERS ae 
(CER HTH h- 

















图 8-11 ”从 客户 角度 总 结 UDP 客 户 /服务 器 


客户 必须 给 sendto 调 用 指定 服务 器 的 卫 地 址 和 端口 号 。 一 般 来 说 ， 

客户 的 下 地 址 和 端口 号 都 由 内 核 目 动 选 择 ， 尽 管 我 们 提 到 过 ， 客 户 也 可 
以 调用 bind 指 定 它们 。 在 客户 的 这 两 个 值 由 内 核 选择 的 情形 下 我 们 也 所 
到 过 ， 客 户 的 临时 站 口 是 在 第 一 次 调用 sendto 时 一 次 性 先是 ， 不 能 改 

变 ; 然而 客户 的 下 地 址 却 可 以 随 客户 发 送 的 每 个 UDP 数据 报 而 变动 〈 假 
设 客户 没有 捆绑 一 个 具体 的 耳 地 址 到 其 套 接 字 上 ) 。 其 原因 如 图 8-11 所 
示 : 如 采 客 户主 机 是 多 和 何 的， 客户 有 可 能 在 两 个 目的 地 之 间 交 葵 选 择 ， 
其 中 一 个 由 左边 的 数据 链 路 外 出 ， 男 一 个 由 右边 的 数据 链 路 外 出 。 在 这 
种 最 坏 的 情形 下 ， 由 内 核 基 于 外 出 数据 链 路 选择 的 客户 IP 地 址 将 随 每 个 
数据 报 而 改变 。 


如 末 客 户 捆 绑 了 一 个 IP 地 址 到 其 僚 接 字 上 ， 但 是 内 核 决 定 外 出 数据 








报 必须 从 另 一 个 数据 链 路 发 出 ， 那 么 将 会 发 生 什 么 ? 这 种 情形 下 ， 卫 数 
据 报 将 包含 一 个 不 同 于 外 出 链 路 JP 地 址 的 源 IP 地 址 (见习 题 8.6)〉。 


图 8-12 给 出 了 同样 的 四 个 值 ， 但 是 是 从 服务 器 的 角度 出 发 的 。 


socket () 
recvfromi) binat!) 
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图 8-12 ”从 服务 器 角度 总 结 UDP 客 户 / 服 务 器 


服务 器 可 能 想 从 到 达 的 IP 数 据 报 上 取得 至 少 四 条 信息 : 源 IP 地 址 、 
目的 IP 地 址 、 源 端口 号 和 目的 端口 号 。 图 8-13 给 出 了 从 TCP 服 务 器 或 
UDP 服务 器 返回 这 些 信 息 的 函数 调用 。 












来 自 客 户 的 卫 数 据 报 TCP 服 务 器 UDP 服务 器 
ETP Hb HE recvfrom 


源 端 口号 | recvfrom 


日 的 下 地 址 getsockname recvmsg 


目的 端口 号 getsockname etsockname 





图 8-13 ”服务 器 可 从 到 达 的 IP 数 据 报 中 获取 的 信息 


TCP 服 务 器 总 是 能 便捷 地 访问 已 连接 套 接 字 的 所 有 这 四 条 信息 ， 而 
且 这 四 个 值 在 连接 的 整个 生命 期 内 保持 不 变 。 然 而 对 于 UDP 套 接 字 ， 目 
的 IP 地 址 只 能 通过 为 IPv4 设 置 IP_RECVDSTADDR 套 接 字 选项 (或 为 IPV6 设 
置 IPv6_PKTINF0 套 接 字 选项 ) 然后 调用 recvmsg (而 不 是 recvfrom) HX 
得 。 由 于 UDP 是 无 连接 的 ， 因 此 目的 IP 地 址 可 随 发 送 到 服务 器 的 每 个 数 
据 报 而 改变 。UDP 服 务 器 也 可 接收 目的 地 址 为 服务 占 主 机 的 某 个 广播 地 
址 或 多 播 地 址 的 数据 报 ， 这 些 我 们 将 在 第 20 章 和 第 21 章 中 讨论 。 我 们 将 
pereas came E 
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8.11 UDPHÜjconnectrA 2X 


在 8.9 节 结尾 我 们 提 到 ， 除 非 套 接 字 已 连接 ， 人 否则 异步 错误 是 不 会 
返回 到 UDP 套 接 字 的 。 我 们 确实 可 以 给 UDP 套 接 字 调用 connect (4.3 
节 ) ， 然 而 这 样 做 的 结果 却 与 TCP 连 接 大 相 径 庭 : 没有 三 路 握手 过 程 。 
内 核 只 是 检查 是 否 存 在 立即 可 知 的 错误 (例如 一 个 显然 不 可 达 的 日 的 
Hh) ， 记 录 对 端的 IP 地 址 和 端口 号 ( 取 自 传递 给 connect 的 套 接 字 地 址 
结构 ) ， 然 后 立即 返回 到 调用 进程 。 


给 connect 函 数 重 载 Coverload) UDP 套 接 字 的 这 种 能 力 容 易 让 人 混 
消 。 如 果 使 用 约定 ， 令 sockname 是 本 地 协议 地 址 ，peername 是 外 地 协议 
地 址 ， 那 么 更 好 的 名 字 本 该 是 setpeername。 类 似 地 ，bind 函 数 更 好 的 名 


字 本 该 是 setsockname。 


有 了 这 个 能 力 后 ， 我 们 必须 区 分 : 











e 未 连接 UDP 套 接 字 (unconnected UDP socket) ， 新 创建 UDP 套 接 字 
默认 如 此 ; 

e 已 连接 UDP 套 接 字 (connected UDP socket) ， 对 UDP 套 接 字 调 
用 connect 的 结 


xe 与 默认 的 未 连接 UDP 和 套 接 字 相 比 ， 发 生 了 
=P hio o 


C1) 我 们 再 也 不 能 给 输出 操作 指定 目的 IP 地 址 和 端口 号 。 也 就 是 
说 ， 我 们 不 使 用 sendto， 而 改 用 write 或 send。 写 到 已 连接 UDP 套 接 字 上 
的 任何 内 容 都 自动 发 送 到 由 connect 指 定 的 协议 地 址 (例如 IP 地 址 和 端 
EIE s 


其 实 我 们 可 以 给 已 连接 UDP 和 套 接 字 调 用 sendto， 但 是 不 能 指定 目的 
地 址 。sendto 的 第 五 个 参数 (指向 指明 目的 地 址 的 套 接 字 地 址 结构 的 指 
针 ) 必须 为 空 指针 ， 第 六 个 参数 〈 该 套 接 字 地 址 结构 的 大 小 ) 应 该 为 
， 第 六 个 参数 的 取 值 就 不 











(2) 我 们 不 必 使 用 recvfrom 以 获悉 数据 报 的 发 送 者 ， 而 改 
用 read、recv 或 recvmsg。 在 一 个 已 连接 UDP 套 接 字 上 ， 由 内 核 为 输入 操 
作 返 回 的 数据 报 只 有 那些 来 自 connect 所 指定 协议 地 址 的 数据 报 。 目 的 
地 为 这 个 已 连接 UDP 套 接 字 的 本 地 协议 地 址 (例如 IP 地 址 和 端口 号 〉， 
发 源 地 却 不 是 该 套 接 字 早 先 connect 到 的 协议 地 址 的 数据 报 ， 不 会 投递 
这 样 就 限制 一 个 已 连接 UDP 套 接 字 能 且 仅 能 与 一 个 对 端 交 


确切 地 说 ， 一 个 已 连接 UDP 套 接 字 仅 仅 与 一 个 卫 地 址 交换 数据 报 ， 
因为 connect 到 多 播 或 广播 地 址 是 可 能 的 。 
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(3) 由 已 连接 UDP 套 接 字 引 发 的 异步 错误 会 返回 给 它们 所 在 的 进 
程 ， 而 未 连接 UDP 套 接 字 不 接收 任何 异步 错误 。 


图 8-14 就 4.4BSD 总 结 了 上 列 第 一 点 。 





不 指定 月 的 地 址 的 | 指定 月 的 地 址 的 


INL} Send 















TCP 套 接 字 可 以 FTSCORN 


LDP 套 接 字 ， 已 连接 EISCOEM 


图 8-14 TCP 和 UDP 套 接 字 : 可 指定 目的 地 协议 地 址 吗 ? 


POSIX 规 范 指出 ， 在 未 连接 UDP 和 套 接 字 上 不 指定 目的 地 址 的 输出 操 


作 应 该 返回 ENOTCONN， 而 不 是 EDESTADDRREQ。 


图 8-15 总 结 了 我 们 给 已 连接 UDP 和 套 接 字 归 纳 的 三 点 。 
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a B I r [bh TP EA ` y |^ UDP4Z ite TR 
i GAUDRE 


UDP AES 








图 8-15 ”已 连接 UDP 和 套 接 字 


应 用 进程 首先 调用 connect 指 定 对 端的 卫 地 址 和 端口 号 ， 然 后 使 
用 read 和 write 与 对 端 进 程 交 换 数 据 。 


来 自任 何其 他 IP 地 址 或 端口 的 数据 报 ( 图 8-15 中 我 们 用 “???” 表 示 ) 
不 投递 给 这 个 已 连接 套 接 字 ， 因 为 它们 要 么 源 卫 地址 要 么 源 UDP 端 口 不 
与 该 套 接 字 connect 到 的 协议 地 址 相 匹 配 。 这 些 数据 报 可 能 投递 给 同一 
个 主机 上 的 其 他 某 个 UDP 和 套 接 字 。 如 果 没 有 相 匹 配 的 其 他 套 接 字 ，UDP 
将 丢弃 它们 并 生成 相应 的 ICMP 端 口 不 可 达 错 误 。 


作为 小 结 ， 我 们 可 以 说 UDP 客户 进程 或 服务 器 进程 只 在 使 用 自己 的 
UDP 套 接 字 与 确定 的 唯一 对 端 进 行 通信 时 ， 才 可 以 调用 connect。 调 
用 connect 的 通常 是 UDP 客户 ， 不 过 有 些 网 络 应 用 中 的 UDP 服务 器 会 与 
单个 客户 长 时 间 通 信 〈 如 TFTP) ， 这 种 情况 下 ， 客 户 和 服务 器 都 可 能 


调用 connect。 
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DNS 提 供 了 男 一 个 例子 ， 如 图 8-16 所 示 。 


= DNS 
IIS #s 


^ fln rnect 








图 8-16 DNS 客户 、 服 务 器 与 connect 函 数 的 例子 


通常 通过 在 /etc/resolv.conf 文 件 中 列 出 服务 器 主机 的 IP 地 址 ， 一 
个 DNS 客户 主机 就 能 被 配置 成 使 用 一 个 或 多 个 DNS 服务 器 。 如 果 列 出 的 
是 单个 服务 器 主机 (图 中 最 左边 的 方 杠 ) ， 客 户 进程 束 可 以 调 
用 connect， 但 是 如 果 列 出 的 是 多 个 服务 器 主机 《图 中 从 右边 数 第 二 个 
HIE) ， 客 户 进 程 就 不 能 调用 connect。 另 外 DNS 服务 器 进程 通常 是 处 
理 客户 请 求 的 ， 因 此 服务 器 进程 不 能 调用 connect。 


8.11.1 给 一 个 UDP 套 接 字 多 次 调用 connect 
拥有 一 个 已 连接 UDP 套 接 字 的 进程 可 出 于 下 列 两 个 目的 之 一 再 次 调 


用 connect: 





。 指定 新 的 耳 地址 和 端口 号 ; 
。 Witt Bikes. 


第 一 个 目的 〈 即 给 一 个 已 连接 UDP 套 接 字 指定 新 的 对 端 ) 不 同 于 
TCP 套 接 字 中 connect 的 使 用 : 对 于 TCP 套 接 字 ，connect 只 能 调用 一 
s 


为 了 断 开 一 个 已 连接 UDP 套 接 字 ， 我 们 再 次 调用 connect 时 把 套 接 
字 地 址 结构 的 地 址 族 成 员 ( 对 于 IPv4 为 sin_family， 对 于 IPV6 
为 sin6_family) 设置 为 AF_UNSPEC。 这 么 做 可 能 会 返回 一 
个 EAFNOSUPPORT 错 误 〈TCPv2 第 736 页 ) ， 不 过 没有 关系 。 使 套 接 字 上 断 开 
连接 的 是 在 已 连接 UDP 套 接 字 上 调用 connect 的 进程 CTCPv2 第 787 一 788 
页 ) 。 


各 种 Unix 变 体 断 开 套 接 字 上 连接 的 方式 存在 差异 ， 同 样 的 方法 可 能 
适合 某 些 系统 而 不 适合 其 他 系统 。 举 例 来 说 ， 以 空 的 套 接 字 地 址 结构 指 
针 调 用 connect 的 方法 仅仅 适合 某 些 系统 〈 而 在 另 一 些 系 统 上 ， 要 求 第 
三 个 参数 即 套 接 字 地 址 结构 长 度 为 非 0) 。POSIX 规 范 和 BSD 手 册页 面 
在 此 帮助 不 大 ， 只 是 提 到 必须 使 用 一 个 空地 址 (null address) ， 而 根本 
没有 提 到 出 错 返回 值 〈 甚 至 成 功 返 回 值 也 没有 提 到 ) 。 最 便于 移植 的 解 
决 办 法 就 是 清 零 一 个 地 址 结构 后 把 它 的 地 址 族 成 员 设置 为 AF_UNSPEC， 
再 把 它 传递 给 connect。 





另 一 个 存在 差异 的 地 方 是 断 开 连 至 接 前 后 套 接 字 本 地 绑 定 地 址 的 取 
值 。AIX 保 留 被 选中 的 本 地 卫 地 址 和 端口 号 ， 即 使 它们 起 源 于 隐 式 捆 
绑 。FreeBSD 和 Linux 把 本 地 了 地 址 设置 回 全 0， 即 使 早先 调用 过 bind， 
端口 号 也 保持 不 变 。S$Solaris 在 隐 式 捆绑 时 把 本 地 耳 地 址 设置 回 全 0， 在 显 
式 调用 过 bind 时 保持 IP 地 址 不 变 。 
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8.11.2 PERE 


当 应 用 进程 在 一 个 未 连接 的 UDP 套 接 字 上 调用 sendto 时 ， 源 自 
Berkeley 的 内 核 暂 时 连接 该 套 接 字 ， 发 送 数据 报 ， 然 后 断 开 该 连接 
CTCPv2 第 762 一 763 页 ) 。 在 一 个 未 连接 的 UDP 套 接 字 上 给 两 个 数据 报 
调用 sendto 函 数 于 是 涉及 内 核 执 行 下 列 6 个 步 又 : 


连接 套 接 字 ， 
输出 第 一 个 数据 报 ， 
断 开 套 接 字 连 接 ; 
连接 套 接 字 ， 
输出 第 二 个 数据 报 ， 
断 开 套 接 字 连 接 。 


男 一 个 考虑 是 搜索 路 由 表 的 次 数 。 一 次 临时 连接 需 为 目的 卫 地 址 
BER M RA RAET ZA 信息 。 第 二 EB m 
己 高 速 缓存 的 路 由 表 信 息 的 目的 地 (我 们 假设 这 两 个 sendto 调 用 有 相同 
的 目的 地 址 ) ， 于 是 就 不 必 再 次 查找 路 由 表 CTCPv228737—7389D. 。 


当 应 用 进程 知道 自己 要 给 同一 目的 地 址 发 送 多 个 数据 报时 ， 显 式 连 
2 ENS 调用 connect 后 调用 两 次 write 涉及 内 核 执行 如 下 步 
qn. 











e 连接 套 接 字 ; 
。 输出 第 一 个 数据 报 ; 
。 输出 第 二 个 数据 报 。 


在 这 种 情况 下 ， 内 核 只 复制 一 次 含有 目的 IP 地 址 和 端口 号 的 套 接 字 


地 址 结构 ， 相 反 当 调用 两 次 sendto 时 ， 需 复制 两 次 。 LPartridge 和 Pink 
1993] 指出 ， 临 时 连接 未 连接 的 UDP 套 接 字 大 约会 耗费 每 个 UDP 传输 三 
分 之 一 的 开销 。 
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8.12 dg dirjZX UM) 


PLE FRAT IG BI 8-8 A Adg ciipR ZA, dU EU aH connect. BI 
8-17 所 示 为 新 的 函数 。 


一 一 上 mí 
n 
du u Ld E 4 
i c m x B 
L [v 4. $ * 
i 3 
[ 
= 
E 
5 
E 





图 8-17 ”调用 connect 的 dg_c1i 函 数 


所 做 的 修改 是 调用 connect， 并 以 read 和 write 调用 代替 sendto 和 
recvfrom 调 用 。 该 函数 不 查看 传递 给 connect 的 套 接 字 地 址 结构 的 内 容 ， 
因此 它 仍然 是 协议 无 关 的 。 图 8-7 中 的 客户 程序 main 函 数 保持 不 变 。 


在 主机 macosx 上 运行 该 程序 ， 并 指定 主机 freebsd4 的 IP 地 址 CE E 
A fE3m A 9877 EZITA MAIRI SERE) ， 我 们 得 到 如 下 输出 : 
macosx % udpcli04 172.24.37.94 


hello, world 
read error: Connection refused 








我 们 首先 注意 到 ， 当 局 动 客 户 进程 时 我 们 并 没有 收 到 这 个 错误 。 该 
错误 只 是 在 我 们 发 送 第 一 个 数据 报 给 服务 器 之 后 才 发 生 。 正 是 发 送 该 数 
据 报 引发 了 来 自 服务 器 主机 的 ICMP 错 误 。 然 而 当 一 个 TCP 客 户 进程 调 
用 connect， 指 定 一 个 不 在 运行 服务 器 进程 的 服务 器 主机 时 ，connect 将 
返回 同样 的 错误 ， 因 为 调用 connect 会 造成 TCP 三 路 握手 ， 而 其 中 第 一 个 
分 节 导 致 服务 器 TCP 返 送 RST (4.357) 。 


256 
图 8-18 给 出 了 tcpdump 的 输出 。 


masussa + tepdump 
! (2215 mancosx.b5' 135 > teachsdd -33871232 vdp 15 
^ GAT a ( 0.0062] freebsd > macesz: ianp: Treebadé ado nort 98/( rraachable 


图 8-18” 当 运行 图 8-17 中 程序 时 tcpdump 的 输出 


我 们 还 从 图 A-15 中 看 到 ， 该 ICMP 错 误 由 内 核 映射 成 ECONNREFUSED 
错误 ， 对 应 于 由 err_sys 函 数 输出 的 消息 串 :“Connection refused”( 连 接 
被 拒绝 ) 。 


不 季 的 是 ， 并 非 所 有 内 核 都 能 像 本 节 的 示例 那样 把 ICMP 消 息 返 送 
给 已 连接 的 UDP 套 接 字 。 一 般 来 说 ， 源 自 Berkeley 的 内 核 返 回 这 种 错 
误 ， 而 System V 内 核 则 不 。 举 例 来 说 ， 如 果 我 们 在 一 个 Solaris 2.4 主 机 上 
运行 同一 个 客户 程序 ， 并 connect 到 没有 运行 服务 器 的 一 个 主机 上 ， 我 
们 束 可 以 用 tcpdump 观 察 并 验证 服务 器 主机 返回 了 ICMP 端 口 不 可 达 错 
误 ， 但 是 客户 的 read 调 用 永 不 返回 。 这 个 缺陷 在 Solaris ”2.5 中 已 修复 。 
UnixWare 不 返回 这 种 错误 ， 而 AIX、Digital Unix、HP-UX 和 Linux 都 返 
回 这 种 错误 。 








8.13 ”UDP 缺乏 流量 控制 


现在 我 们 查看 无 任何 流量 控制 的 UDP 对 数据 报 传输 的 影响 。 首 先 ， 
我 们 把 dg_cl1i 函 数 修改 为 发 送 固定 数目 的 数据 报 ， 并 不 再 从 标准 输入 
人 它 写 2000 个 1400 字 节 大 小 的 UDP 数据 报 给 
服务 器 。 








图 8-19 写 固 定数 目的 数据 报到 服务 器 的 dg_cl1i 函 数 


然后 ， 我 们 把 服务 器 程序 修改 为 接收 数据 报 并 对 其 计数 ， 并 不 再 把 
数据 报 回 射 给 客户 。 图 8-20 所 示 为 新 的 dg_echo 函 数 。 当 我 们 用 终端 中 断 
键 终止 服务 器 时 (相当 于 向 它 发 送 sI6INT 信 号 ) ， 服 务 器 会 显示 所 接收 
到 数据 报 的 数目 并 终止。 





udpelisenv!dascholoup!.c 


M nGcklen t lan: 
char meag [MAXI E] ， 


i l(SIGINT, = 1 Tee 6 
- Loz 2): 
ed fen — cii ctn 
E RecvLrurs iu, tesy, MAXLINE lizdd-, ole 
a un ++ 


6 static werd 


= recvtrom :nt(int signo) 


mvint={"\rreceived Sd dateqranaan”, comt): 
20 exil (2): 





图 8-20 ”对 接收 到 数据 报 进行 计数 的 dg_echo 函 数 


现在 我 们 在 主机 freebsd 上 运行 服务 器 ， 它 是 一 个 慢 速 的 SPARC 工 
作 站 ; 在 RS/6000 系 统 aix 上 运行 客户 ， 两 个 主机 间 ! 以 100 Mbit/s 以 太 网 
相连 。 另外 ， 我 们 在 服务 器 主机 上 运行 netstat - s 命 令 ， 在 服务 器 启动 
前 和 结束 后 各 运行 一 次 ， 因 为 它们 输出 的 统计 数据 将 表明 丢失 了 多 少数 
据 报 。 图 8-21 给 出 了 服务 占 主 机 上 的 输出 。 


aix > udpserv06 
sy Ses AAN PUER 
received 2000 dalaygrans 
frccosa £ netstat -s -p udp 
udp: 
71268 datagrams received 
0 with incomplete neader 
2 with baa data length isle 
0 with bad checksum 
9 with no checksum 
332 dropped duc Lo ne sockel 
16 DroaGcasc/m:lticzast datagrams dropped duc to no socket 
1971 Gropped die to fell socket buffers 
Q nok for hashed pcb 
€€309 delivered 


127685 catagrams output 
tresso š udpservJ6 启动 我 们 的 服务 器 
再 在 此 处 运行 客 上 请 
^e & Pier In RD ERE 


received 30 daLagrams 
frocosG % netstat -s -p udp 
udo: 

73268 datagrams received 
with incomplete nsader 
with bad data length tiela 
with oaa checkoum 


wilh no checksum 


332 dropped duc to no socket 

16 bevadcas_f/mullicasl datagrams dropped duo Lo no socket 
3941 Groppod die to frill socket buffers 

0 not for hashed pcb 

ct419 delivered 

13/685 calagrans oulpu- 


图 8-21 服务 器 主机 上 的 输出 
257-258 


客户 发 出 2000 个 数据 报 ， 但 是 服务 器 只 收 到 其 中 的 30 人 个， 丢失 率 为 
98%。 对 于 服务 器 应 用 进程 或 客户 应 用 进程 都 没有 给 出 任何 指示 说 这 些 
数据 报 已 丢失 。 这 证 实 了 我 们 说 过 的 话 ， 即 UDP 没 有 流量 控制 并 且 是 不 
可 靠 的 。 本 例 表 明 UDP 发 送 端 淹没 其 接收 端 是 轻而易举 之 事 。 





检查 netstat 的 输出 ， 我 们 看 到 服务 器 主机 《而 不 是 服务 器 本 身 ) 
接收 到 的 数据 报 总 数 是 2000 (73208-71208) > “dropped due to full 
socket buffers”( 因 和 套 接 字 缓冲 区 满 而 丢弃 ) 计数 器 的 值 表示 已 被 UDP 接 
收 ， 但 是 因为 接收 套 接 字 的 接收 队列 已 满 而 被 丢弃 的 数据 报 的 数目 
CTCPv2 第 775 页 ) 。 该 值 为 1970 (3491H1971) ， 它 加 上 由 应 用 进程 输 
出 的 计数 值 Oo 等 于 服务 器 主机 接收 到 的 2000 个 数据 报 。 不 事 的 是 ， 
因 套 接 字 缓冲 区 满 而 丢弃 数据 报 的 netstat 计 数值 是 全 系统 范围 的 值 ， 
没有 办 法 确定 具体 影响 到 哪些 应 用 进程 〈 例 如 哪些 UDP 端口 ) 。 


本 例 中 由 服务 器 接收 的 数据 报 的 数目 是 不 确定 的 。 它 依赖 于 许多 
素 ， 例 如 网 络 负载 、 客 户主 机 的 处 理 负载 以 及 服务 器 主机 的 处 理 负载 。 


如 果 我 们 再 次 运行 相同 的 客户 和 服务 器 ， 不 过 这 一 次 让 客户 运行 在 
oe 让 服务 器 运行 在 较 快 的 RS/6000 主 机 上 ， 那 就 没有 数 
据 报 丢失 。 


UDP fe TRAR X 


由 UDP 给 某 个 特定 套 接 字 排队 的 UDP 数据 报 数目 受 限 于 该 套 接 字 接 
收 缓冲 区 的 大 小 。 我 们 可 以 使 用 so_RcvBuF 套 接 字 选 项 修改 该 值 ， 如 7.5 
节 所 述 。 在 FreeBSD 下 UDP 套 接 字 接 收 缓冲 区 的 默认 大 小 为 42 ”080 字 
节 ， 也 就 是 只 有 30 个 1400 字 节 数 据 报 的 容纳 空间 。 如 果 我 们 增 大 套 接 字 
接收 缓冲 区 的 大 小 ， 那 么 服务 器 有 望 接收 更 多 的 数据 报 。 图 8-22 给 出 了 
对 图 8-20 中 dg_echo 函 数 的 修改 ， 把 套 接 字 接收 绥 冲 区 设置 为 240 KB. 














udpcliservdgecholaop 2. c 


1 tinclud: "ap. E" 
2 atatic void recvfrom int (inti; 
3 zLlulic in- counts 
å void 
5 ey ccauolin. sucklu, SA *zcLLaddr, scckicr L cli_cn} 
€ | 
int ae 
y sucklen L lən; 
char meag [MAXI 17 7 
-ü Sigaal(2IGINT, -ecvlrom ial); 


xxm n = 220 * 1U24; 


E Sotseckoot (sackfd, SOL SCCKKU, NO MCVBUr, sn, €:2207[n)]); 
"ad far (32 X.) t 

oe lan — li ons 

-5 Reoviremiacckid, mesq, MAXLINE, 0, poliadar, slen); 
—& exert? 

- ' E 

"8 | 


-3 zLlalic void 
20 wecv?nvom irr(int signo) 


2- d 


zz priabl("srreceived SR dablagrawsw", coul); 
23 exil {9}? 
2 o) 


udpciliserv/dgecholoop te 


图 8-22” 增 大 套 接 字 接 收 队列 大 小 的 dg_echo 函 数 


在 Sun 主 机 上 运行 这 个 服务 嚣 程序， 在 RS/6000 主 机 上 运行 其 客户 程 
序 ， 接 收 到 的 数据 报 计 数 现在 变 为 103。 这 比 前 面 使 用 默认 套 接 字 接收 
缓冲 区 的 例子 稍 有 改善 ， 不 过 仍然 不 能 从 根本 上 解决 问题 。 


在 图 8-22 中 我 们 为 什么 把 接收 套 接 字 缓冲 区 大 小 设 为 220x1 024 字 节 
UE? FreeBSD5.1 中 一 个 套 接 字 接收 缓冲 区 的 最 大 大 小 默认 为 262 144 字 
Tq (256x1 024) ， 但 是 由 于 缓冲 区 分 配 策略 〈 见 TCPv2 第 2 章 ) ， 真 实 
的 限制 是 233 ”016 字 节 。 许 多 基于 4.3BSD 的 早期 系统 把 一 个 套 接 字 缓 冲 
区 的 大 小 限制 为 52 000 字 节 左 右 。 


8.14 UDP 中 的 外 出 接口 的 确定 


已 连接 UDP 僚 接 字 还 可 用 来 确定 用 于 茶 个 特定 目的 地 的 外 出 接口 。 
这 是 由 connect 沙 数 应 用 到 UDP 套 接 字 时 的 一 个 副作用 造成 的 ;内核 选 
择 本 地 了 地 址 《假设 其 进程 未 曾 调用 bind 显 式 指派 它 ) 。 这 个 本 地 IP 地 
目的 IP 地 址 搜索 路 由 表 得 到 外 出 接口 ， 然 后 选用 该 接口 的 主 IP 
地 址 而 选 定 。 


图 8-23 给 出 了 一 个 简单 的 UDP 程序 ， 它 connect 到 一 个 指定 的 耳 地址 
后 调用 getsockname 得 到 本 地 了 地 址 和 端口 号 并 显示 输出 。 


udpclaenuapchis, c 


2 int 
J main(int arqc, char *'arzqvw) 


5 int zaaktcl 
[s sock.en L „enr 


sloucy suckaddr in  zliudd-z, sozvaddr; 


J IL fant 1— 2) 
g err cit("18aqo: ucoz2li <1Paddrcss>") 7 
13 vuckld = Sos«eL]AF -NET, SOCK ICRAM, Ul; 


M hanra(ksorvaddr, siznnf(s^2rvaddr)):? 


12 sorzvuddr.sin family - AF INET; 

13 savvaddr.sin part htona[S*MVv SORTS: 

14 Tnet pton|AF 7TNET, arqv, ., &aervaddr.ain acnT 

15 Connccl(suckÜd, [5A *) &scorvaddür, sizcef(scrvaddr)): 

lé len 一 sizccf (cliaddri: 

17 ERDPname (sockfd, (5^ 4) &c'^addr, &lanje 

13 "inzf("lasa] addraan tain", Sack ntapitSe *] scliacór, Terj): 
P 2 P t 


13 wall (Ùl s 
} 


unpetisemvudpeht9.c 
图 8-23 ”使 用 connect 来 确定 输出 接口 的 UDP 程序 
在 多 答 主 机 freebsd 上 运行 该 程序 ， 我 们 得 到 如 下 输出 : 


freebsd % udpcli09 206.168.112.96 
local address 12.106.32.254:52329 


freebsd % udpcli09 192.168.42.2 


local address 192.168.42.1:52330 


freebsd % udpcli09 127.0.0.1 
local address 127.0.0.1:52331 





第 一 次 运行 该 程序 时 所 用 命令 行 参 数 是 一 个 遵循 默认 路 径 的 耳 地 
址 。 内 核 把 本 地 IP 地 址 指派 成 默认 路 径 所 指 接口 的 主 IP 地 址 。 第 二 次 运 
行 该 程序 时 所 用 命令 行 参数 是 连接 到 男 一 个 以 太 网 接口 的 一 个 系统 的 IP 
地 址 ， 因 此 内 核 把 本 地 IP 地 址 指派 成 该 接口 的 主 地 址 。 在 UDP 套 接 字 上 
调用 connect 并 不 给 对 端 主 机 发 送 任何 信息 ， 它 完全 是 一 个 本 地 操作 ， 
只 是 保存 对 端的 耳 地 址 和 端口 号 。 我 们 还 看 到 ， 在 一 个 未 绑 定 端口 号 的 
UDP 套 接 字 上 调用 connect 同 时 也 给 该 套 接 字 指派 一 个 临时 端口 。 


不 幸 的 是 ， 这 项 技术 并 非 对 所 有 实现 都 有 效 ， 尤 其 是 源 自 SVR4 的 
内 核 。 举 例 来 说 ， 它 对 Solaris 2.57625 XJAIX. HP-UX 11. MacOS 
X. FreeBSD. Linux. Solaris 2.6 及 其 以 后 版 本 却 均 有 效 。 














8.15 ”使 用 select 函 数 的 TCP 和 UDP 回 射 服 
A ARTE 


现在 ， 我 们 把 第 5 章 中 的 并 发 TCP 回 射 服务 器 程序 与 本 章 中 的 迭代 
UDP 回 射 服务 器 程序 组 合成 单个 使 用 select 来 复 用 TCP 和 UDP 套 接 字 的 
服务 器 程序 。 图 8-24 是 该 程序 的 前 半 部 分 。 


udpcliservaedpservselaczt) c 
| fine nde: "wap." 


? int. 


3 omainfinl arge, char **argv) 


44 

t int listenfc, conntcl, udptd, nreacy, mraxt£col; 
6 chan mesy | MEXLINE | > 

3 pid lL zbildpid; 

R *d net rset. 

t irc tr 

f sockler t. ler; 

ll conat irt on — 1; 

12 sloucl sockaddr in cliadir, servadde; 
l3 woic sig calc {int}: 

14 /* create Listening TID socke = */ 


LS lisLcrld 一 SovacLiaF INET, SOCK STREAM, J); 


16 bzczo(&sccyaddr, Ss2lzooL(scrvadud-)); 

1? servaddr sin family 一 ^w INIT? 

it sczvaddr.sin addr.s adde ~ hloal (INZDIR ANY); 

16 acvvaddr.sim port 一 hnna [SRV PORT}; 

aR Setsockopt {listanfd, SOL SCCK HO RSUSHADDR, kon, siznef ian) i)? 


3inc(listenfa, (SA *'] &aervadür, nizeof[nervaddrl]: 
22 LisLcr(lisLerfd, LISCENC): 


23 /* crcalc UDP sockel */ 


^4 udpfi 一 5ockeziMw NI SOCK Ue3AM, 2): 

zh bzero(scervaddr, slzeoL(ugervauddr)): 

26 zozvaddr.sin fomily — AF INET: 

1 soTvaddr.sin zddr.s addr htonl (INADD AMY)? 
2H Sservaddr.sin port — htona|SEEV TORT) 2 


Binetucitd, (SA *) &aervaddr, aizectí(se"wacdr)); 
udpcliserv/aedpnservselaczt) c 


图 8-24 ”使 用 select 处 理 TCP 和 UDP 的 回 射 服务 器 程序 前 半 部 分 
创建 监听 TCP 套 接 字 


14-22 ”创建 一 个 监听 TCP 套 接 字 并 捆绑 服务 器 的 众所周知 端口 ， 
设置 So_REUSEADDR 套 接 字 选项 以 防 该 端口 上 已 有 连接 存在 。 








创建 UDP 套 接 字 


23-29 2150 d m 


这 里 无 需 
是 独立 于 UDP 端口 的 。 


图 8-25 给 出 了 服务 器 程序 的 后 半 部 分 。 


在 调用 bind 之 前 设置 So_REUSEADDR 套 接 字 选项 


因为 TCP 端 口 


napeizservuapsenvsetect lc 


NULL)) < 2) { 


onnected socket */ 


(SA *] &cliaddr, &-en):; 


aa Signa (BIGCHLIE, sig ehled); /Á* mush call wailg^d() */ 
3l U AaBbh2l&csoclbs 

32 mzxfdp! max{lisnorfd, ndpfd) + 1; 

33 Brig) 

ac r3 umriüliasrtenfd, &rsct)? 

3n Ps (ndpfd, riet}; 

3C it ( (mreacy 一 select (maxidpl, &rset, NULL, NULL, 

3/ il jerrro = LINTR) 

39 cunk nus /* back Vo £or(] */ 

33 else 

49 vrr sys("sulocl urror"); 

41 J 

42 if (WD lSier(listenta, &rse6t) | 

43 lan 一 sizeoficliacdr); 

4£ nnfd 一 pl{lis ra, *| & ii & 

15 il 4 (uhileévid = rorki)) — 0) : /* shild process */ 
A6 rinse (listonfa): /^ finan “istening seekat */ 
17 anr encho[coonnfa):; /* prnceaa the r&q1ea- * 
4n esdtinlr 

45 } 

59 ~Loseiconnta); /* parent closes c 

sl } 

52 iL (FD ISSET (udela, eet { 

4 len — rizeoti (aliaccr); 

bi t = Peeviscal(udele, mesg, MAXLINE, U, 

bh Sendt2(udpfc, mesq, n, U, (SA *) écliadds, -en): 
56 } 

57 } 

53 1 


图 8-25 “使 用 select 处 理 TCP 和 UDP 的 回 射 服 务 器 程序 : 





言 写 处 理 程序 
言 写 处 理 程序 ， 因 为 TCP 连 


给 SIGcHLD 建 立 


30 给 SIGcHLD 建 立信 


理 。 我 们 已 在 图 5-11 中 给 出 了 这 个 信号 处 理 函数 。 


准备 调用 select 





napeüiseruapservseéeeta ly. e 


后 半 部 分 


车 接 将 由 茶 个 子 进程 处 


31-32 ”我 们 给 select 初 始 化 一 个 描述 符 集 ， 并 计算 出 我 们 等 待 的 
两 个 描述 符 的 较 大 者 。 


调用 select 

34-41 ”我 们 调用 select 只 是 为 了 等 待 监听 TCP 套 接 字 的 可 读 条 件 或 
UDP 套 接 字 的 可 读 条 件 。 既 然 我 们 的 sig_ch1d 信 号 处 理 函 数 可 能 中 晰 我 
们 对 select 的 调用 ， 我 们 于 是 需要 处 理 EINTR 错 误 。 

259~263 

处 理 新 的 客户 连接 

42-51 ， 当 监听 TCP 套 接 字 可 读 时 ， 我 们 accept 一 个 新 的 客户 连 
接 ，fork 一 个 子 进 程 ， 并 在 子 进 程 中 调用 str_echo 隙 数 。 这 与 第 5 章 中 
采取 的 步骤 相同 。 
处 理 数 据 报 的 到 达 


52~57 ”如果 UDP 套 接 字 可 读 ， 那 么 已 有 一 个 数据 报到 达 。 我 们 使 
用 recvfrom 读 入 它 ， 再 使 用 sendto 把 它 发 回 给 客户 。 


8.46 ”小 结 


把 我 们 的 TCP 回 射 客户 /服务 器 程序 转换 成 UDP 回 射 客 户 / 服 务 器 程 
序 比 较 容 易 ， 然 而 TCP 提 供 的 许多 功能 也 消失 了 : 检测 丢失 的 分 组 并 重 
传 ， 验 证 响应 是 否 来 自 正确 的 对 端 ， 等 等 。 到 22.5 节 我 们 再 回 过 头 来 讨 
论 这 个 话题 ， 并 查看 如 何 给 UDP 应 用 程序 增加 一 些 可 靠 性 。 
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UDP 和 套 接 字 可 能 产生 异步 错误 ， 它 们 是 在 分 组 发 送 完 一 段 时 间 后 才 
报告 的 错误 。TCP 和 套 接 字 总 是 给 应 用 进程 报告 这 些 错 误 ， 但 是 UDP 和 套 接 
字 必 须 已 连接 才能 接收 这 些 错误 。 

UDP 没有 流量 控制 ， 这 一 点 很 容易 演示 证 明 。 一 般 来 说 ， 这 不 成 什 
么 问题 ， 因 为 许多 UDP 应 用 程序 是 用 请 求 -应 答 模式 构造 的 ， 而 且 不 用 
于 传送 大 量 数据 。 


编写 UDP 应 用 程序 时 还 有 许多 问题 需要 考虑 ， 不 过 我 们 把 它们 留 到 
第 22 草 ， 也 就 是 在 讲解 了 接口 函数 、 广 播 和 多 播 以 后 再 作 讨论 。 

















习题 


8.1 我 们 有 两 个 应 用 程序 ， 一 个 使 用 TCP， 男 一 个 使 用 UDP。TCP 
套 接 字 的 接收 缓冲 区 中 有 4096 字 节 的 数据 ，UDP 套 接 字 的 接收 缓冲 区 中 
有 了 两 个 2048 字 节 的 数据 报 。TCP 应 用 程序 调用 read， 指 定 其 第 三 个 参数 
为 4096，UDP 应 用 程序 调用 recvfrom， 指 定 其 第 三 个 参数 也 为 4096。 这 
两 个 应 用 程序 有 什么 差别 吗 ? 


82 ”在 图 8-4 中 ， 如 果 我 们 用 clilen 来 代替 sendto 的 最 后 一 个 参数 
CEJRA len) ， 将 会 发 生 什 么 ? 


8.3 编译 并 运行 图 8-3 及 图 8-4 的 UDP 服务 器 程序 和 图 8-7 及 图 8-8 的 
UDP 客户 程序 。 验 证 一 下 客户 与 服务 器 能 一 起 工作 。 


8.4 在 一 个 窗口 中 运行 bing 程 序 ， 指 定 -1 66 选项 (每 60 秒 发 一 个 
分 组 ， 有 些 系统 用 -I 而 不 是 -i) 、-v 选 项 〈 输 出 所 有 接收 到 的 ICMP 错 
误 ) 和 环 回 地 址 〈 通 常 为 127.0.0.1) 。 我 们 将 用 该 程序 来 观察 由 服务 器 
主机 返回 的 端口 不 可 达 ICMP 错 误 。 然 后 ， 在 另 一 个 窗口 运行 上 一 个 习 
题 中 的 客户 ， 指 定 不 在 运行 服务 器 的 某 主机 的 人 P 地 址 。 将 会 发 生 什么 ? 


85 “对 于 图 8-5 我 们 说 过 每 个 已 连接 TCP 套 接 字 都 有 自己 的 套 接 字 
接收 缓冲 区 。 监 听 套 接 字 情 况 怎样 ? 你 认为 它 有 自己 的 套 接 字 接 收 缓冲 
区 吗 ? 


8.6 ”用 sock 程 序 (C.3 节 ) 和 诸如 tcpdump 〈C.5 节 ) 之 类 的 工具 来 
测试 我 们 在 8.10 节 给 出 的 声明 : 如 果 客 户 bind 一 个 IP 地 址 到 它 的 套 接 字 
上 ， 但 是 发 送 一 个 从 其 他 接口 外 出 的 数据 报 ， 那 么 该 数据 报 仍然 包含 绑 
| UND 即使 该 卫 地 址 与 该 数据 报 的 外 出 接口 并 不 相 
符 也 不 管 。 


8.7 ”编译 8.13 节 中 的 程序 并 在 不 同 的 主机 上 运行 客户 和 服务 器 。 在 
客户 程序 中 每 次 写 一 个 数据 报到 套 接 字 处 放 一 个 printf 调 用 ， 这 会 改变 
接收 到 分 组 的 百分比 吗 ? 为 什么 ? 在 服务 需 程 序 中 每 次 从 套 接 字 读 一 个 
数据 报 处 放 一 个 printf 调 用 ， 这 会 改变 接收 到 分 组 的 百分比 吗 ? 为 什 


2 



































8.8 对 于 UDP/IPv4 套 接 字 ， 可 传递 给 sendto 的 最 大 长 度 是 多 少 ; 
也 就 是 说 ， 可 装填 在 一 个 UDP/IPv4 数 据 报 中 的 最 大 数据 量 是 多 少 ? 
UDP/IPv6 又 有 什么 不 同 ? 
修改 图 8-8 以 发 送 最 大 长 度 的 UDP 数据 报 ， 读 回 它 ， 并 输出 由 recvfrom 返 
回 的 字 节 数 。 


8.9 通过 对 UDP 套 接 字 使 用 IP_RECVDSTADDR 套 接 字 选项 ， 把 图 8-25 
的 程序 修改 为 符合 RFC 1122。 
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这 句 话 是 针对 本 例子 所 用 的 主机 和 网 络 环境 而 言 的， 其 中 隐 含 假设 从 
客户 主机 到 服务 器 主机 非 共 享 子 网 耳 地 址 的 路 径 与 从 客户 主机 到 服务 器 
主机 共 至 子 网 人 P 地 址 的 路 径 一 致 。 通 常情 形 下 这 两 条 路 经 不 一 定 一 致 。 
不 注意 到 这 一 点 ， 作 者 随后 的 解释 将 难以 理解 。 译 者 注 








sgt ”基本 S0.23CTP 套 接 字 编程 


9.1 概述 


SCTP 是 一 个 较 新 的 传输 协议 ， 于 2000 年 在 IETF 得 到 标准 化 (而 
TCP 是 在 1981 年 标准 化 的 ) 。 它 最 初 是 为 满足 不 断 增 长 的 卫 电 话 市 场 设 
计 的 ， 具体 地 说 就 是 罕 越 因特网 传输 电话 信 令 。 它 设计 实现 的 需求 在 
RFC 2719 [ Ong et al. 1999] 中 说 明 。SCTP 是 一 个 可 靠 的 面向 消息 的 协 
议 ， 在 端点 之 间 提 供 多 个 流 ， 并 为 多 宿 提供 传输 级 支持 。 既 然 是 一 个 较 
新 的 传输 协议 ， 它 没有 TCP 或 UDP 那样 无 处 不 在 ， 然 而 它 提供 了 一 些 有 
可 能 简化 特定 应 用 程序 设计 的 新 特性 。 我 们 将 在 23.12 节 讨论 考虑 用 
SCTP 代 蔡 TCP 的 原因 。 


尽管 SCTP 和 TCP 之 间 存 在 一 些 本 质 性 的 差别 ， 然 而 SCTP 的 一 到 一 
Cone-to-one) 接口 与 TCP 提 供 的 应 用 接口 非常 接近 。 这 一 点 允许 轻 而 易 
举 地 移植 应 用 程序 ， 不 过 没 法 使 用 SCTP 的 某 些 高 级 特性 。SCTP 的 一 到 
多 (one-to-many) 接口 提供 了 这 些 特性 的 完全 文 持 ， 然 而 可 能 需要 费时 
费力 地 重新 编写 已 有 的 应 用 程序 。 对 于 大 多 数 使 用 SCTP 开 发 的 新 应 用 
程序 而 言 ， 推 荐 使 用 一 到 多 接口 。 


本 章 讲 解 可 额外 用 于 SCTP 的 基本 套 接 字 函 数 。 我 们 首先 讲解 应 用 
程序 开发 人 员 可 以 使 用 的 两 种 不 同 的 接口 模型 。 在 第 10 章 中 ， 我 们 将 使 
用 一 到 多 模型 开发 回 射 服务 器 程序 的 一 个 版 本 。 我 还 讲解 仅仅 用 于 
SCTP 的 新 函数 ， 随 后 查看 shutdown 函 数 ， 了 解 它 在 SCTP 中 的 使 用 与 在 
TCP 中 的 使 用 如 何不 同 。 我 们 接着 简要 讨论 SCTP 中 通知 (notification) 
的 使 用 。 通 知 使 得 一 个 应 用 进程 能 够 知晓 用 户 数据 到 达 以 外 的 重要 协议 
事件 。23.4 节 中 我 们 将 会 看 到 一 个 如 何 使 用 通知 的 例子 。 
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SCTP 各 种 特性 的 接口 因为 本 身 较 新 而 尚未 完全 稳定 。 编 写本 书 
时 ， 书 中 讲解 的 接口 被 认为 是 已 经 稳定 ， 不 过 当然 没有 像 套 接 字 API 其 
余部 分 那样 普遍 存在 。 仅 使 用 SCTP 的 应 用 程序 的 用 户 需 准备 好 安装 内 
核 补丁 或 升级 操作 系统 ， 而 想 要 在 各 种 平台 上 使 用 的 应 用 程序 需要 同时 
考虑 使 用 TCP， 以 应 对 SCTP 不 可 用 的 系统 。 

















9.2 ”接口 模型 


SCTP 套 接 字 分 为 : 一 到 一 套 接 字 和 一 到 多 套 接 字 。 一 到 一 套 接 字 
对 应 一 个 单独 的 SCTP 关 联 。 (回顾 2.5 节 ， 我 们 知道 一 个 SCTP 关 联 是 两 
个 系统 之 间 的 一 个 连接 ， 不 过 可 能 由 于 多 宿 原因 而 在 每 个 端点 涉及 不 止 
一 个 IP 地 址 。) 这 种 映射 类 似 于 TCP 套 接 字 和 TCP 连 接 的 对 应 关系 。 对 
于 一 到 多 套 接 字 ， 一 个 给 定 套 接 字 上 可 以 同时 有 多 个 活跃 的 SCTP 关 
联 。 这 种 映射 类 似 于 绑 定 了 某 个 特定 端口 的 UDP 套 接 字 能 够 从 若干 个 同 
时 在 发 送 数 据 的 远程 UDP 端点 接收 彼此 交错 的 数据 报 。 


在 决定 使 用 哪 种 接口 形式 时 ， 需 要 考虑 应 用 程序 的 多 个 因 系 。 


。 所 编写 的 服务 辟 程 序 是 欠 代 的 还 是 并 发 的 ? 

服务 需 和 希望 管理 多 少 套 接 字 描述 符 ? 

。 优化 关联 建立 的 四 路 握手 过 程 ， 使 得 能 够 在 其 中 第 三 个 〈 也 可 能 是 
第 四 个 ) 分 组 交换 用 户 数据 ， 这 一 点 很 重要 吗 ? 

。 应 用 进程 希望 维护 多 少 个 连接 状态 ? 


在 开发 SCTP 的 套 接 字 API 期 间 ， 这 两 种 形式 的 套 接 字 曾 经 用 过 别 的 
称谓 ， 在 文档 或 源 代码 中 ， 读 者 有 时 会 碰 到 这 些 旧 的 名 称 。 一 到 一 套 接 
字 原 本 称 为 TCP 风 格 (TCP-style) 套 接 字 ， 一 到 多 套 接 字 原本 称 为 UDP 
风格 套 接 字 。 


这 些 风格 称谓 后 来 被 取消 了 ， 因 为 它们 易于 造成 混淆 ， 即 SCTP 可 
能 被 误解 成 其 行为 更 像 TCP 或 UDP， 具 体 取决 于 使 用 哪 种 风格 的 套 接 
字 。 事 实 上 这 些 称谓 仅仅 引用 了 TCP 套 接 字 和 UDP 套 接 字 在 一 个 方面 的 
差异 〈 即 是 否 支 持 多 个 并 发 的 传输 层 关 联 〉。 它 们 目前 的 称谓 (一 到 一 
与 一 到 多 ) 集中 体现 了 这 两 种 套 接 字形 式 之 间 的 关键 差异 。 最 后 指出 ， 
有 些 作 者 使 用 多 到 一 这 个 称谓 代替 一 到 多 ， 两 者 可 以 互 换 。 
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9.2.1 —58|—JE XX 


开发 一 到 一 形式 的 目的 是 方便 将 现 有 TCP 应 用 程序 移植 到 SCTP 
上 。 它 提供 的 模型 与 第 4 半 中 介绍 的 几乎 一 样 。 以 下 是 这 两 者 之 间 必 须 
人 
时 。 








(1) 任何 TCP 套 接 字 选项 必须 转换 成 等 效 的 SCTP 套 接 字 选项 。 两 个 
较 常 见 的 选项 是 TcP_NODELAY 和 TcP_MAXsEG6， 它 们 应 该 映射 
FXSCTP. NODELAYTISCTP. MAXSEG. 


(2 ”SCTP 保 存 消息 边界 ， 因 而 应 用 层 消 恩 边界 并 非 必需 。 举 例 来 
说 ， 基 于 TCP 的 某 个 应 用 协议 可 能 先 执行 一 个 双 字 节 的 write 系 统 调 
用 ， 给 出 消息 的 长 度 x， 再 调用 一 个 x 字 节 的 write 系统 调用 ， 写 出 消息 
数据 本 身 。 改 用 SCTP 后 ， 接 收 端 SCTP 将 收 到 两 个 独立 的 消息 (也 就 是 
说 得 有 两 次 read 系 统 调用 才能 返回 全 部 数据 : 第 一 次 返回 一 个 双 字 节 数 
据 ， 第 二 次 返回 一 个 x 字 节 消 息 ) 。 


(3) 有 些 TCP 应 用 进程 使 用 半 关 闭 来 告知 对 端 去 往 它 的 数据 流 已 经 
结束 。 将 这 样 的 应 用 程序 移植 到 SCTP 需 要 额外 重 写 应 用 层 协议 ， 让 应 
用 进程 在 应 用 数据 流 中 告知 对 端 该 传输 数据 流 已 经 结束 。 


(4) _ send 函数 能 够 以 普通 方式 使 用 。 使 用 sendto 或 sendmsg 函 数 时 ， 
指定 的 任何 地 址 都 被 认为 是 对 目的 地 主 地 址 (2.8 50. 的 重 写 
(overriding， 意 为 弃 原 值 、 置 新 值 〉。 


图 9-1 所 示 为 一 到 一 套 接 字典 型 用 法 的 时 间 线 图 。 服 务 器 启动 后 ， 
打开 一 个 套 接 字 ，bind 一 个 地 址 ， 然 后 就 等 着 accept 客 户 关联 。 一 段 时 
间 后 客户 有 启动， 它 也 打开 一 个 套 接 字 ， 并 初始 化 与 服务 器 的 一 个 关联 。 
我 们 假设 客户 向 服务 费 发 送 一 个 请 求 ， 服 务 费 处理 该 请 求 后 向 客户 发 回 
一 个 应 答 。 这 个 循环 持续 到 客户 开始 终止 该 关联 为 止 。 这 样 主动 天 闭关 
联 之 后 ， 服 务 器 或 者 退出 ， 或 者 等 竺 新 的 关联 。 通 过 对 比 图 4-1 所 示 TCP 
2 

Ec 
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图 9-1 SCTP 一 到 一 形式 的 套 接 字 函 数 


一 到 一 式 SCTP 套 接 字 是 一 个 类 型 为 Sock_sTREAM， 协 议 
为 IPPROTO_SCTP 的 网 际 网 套 接 字 ( 即 协议 族 为 AF_INET 或 AF_INET6) o 


9.2.2 一 到 多 形式 


一 到 多 形式 给 应 用 程序 开发 人 员 提 供 这 样 的 能 力 : 编写 的 服务 器 程 
序 无 需 管 理 大 量 的 套 接 字 描述 符 。 单 个 套 接 字 描 述 符 将 代表 多 个 关联 ， 








就 像 一 个 UDP 套 接 字 能 够 从 多 个 客户 接收 消 明 那样 。 在 一 到 多 式 套 接 字 
上 ， 用 于 标识 单个 关联 的 是 一 个 关联 标识 Cassociation X 
联 标识 是 一 个 类 型 为 sctp_ assoc_t 的 值 ， 通 常 是 一 个 整数 。 EAR 
透明 的 值 ， 应 用 进 得 不 应该 使 用 不 是 由 内 核 导 前 给 予 的 任何 关联 标识 。 

一 到 多 式 套 接 字 的 用 户 应 该 掌握 以 下 几 点 。 


(0)  ” 当 一 个 客户 关闭 其 关联 时 ， 其 服务 器 也 将 自动 天 闭 同一 个 关 
联 ， 服 务 器 主机 内 核 中 不 再 有 该 关联 的 状态 。 


(2) ”可 用 于 致使 在 四 路 握手 的 第 三 个 或 第 四 个 分 组 中 撒 带 用 户 数据 
的 唯一 办 法 残 是 使 用 一 到 多 形式 见习 题 9.3)。 


(3) ”对 于 一 个 与 它 还 没有 关联 存在 的 IP 地 址 ， 任 何以 它 为 目的 地 的 
sendto、sendmsg 或 sctp_sendmsg 将 导致 对 主动 打开 的 和 尝试 ， 从 而 《如 果 
成 功 的 话 ) 建立 一 个 与 该 地 址 的 新 关联 。 这 种 行为 的 发 生 与 执行 分 组 发 
送 的 这 个 应 用 进程 是 否 曾 调 用 过 1isten 函 数 以 请 求 被 动 打开 无 关 。 


(4) 用 户 必须 使 用 sendto、sendmsg 或 sctp_sendmsg 这 3 个 分 组 发 送 函 
数 ， 而 不 能 使 用 send 或 write 这 2 个 分 组 发 送 函 数 ， 除 非 已 经 使 
用 sctp_peeloff 函 数 从 一 个 一 到 多 式 套 接 字 剥离 出 一 个 一 到 一 式 套 接 
字 。 





(5) 任何 时 候 调 用 其 中 任何 一 个 分 组 发 送 函 数 时 ， 所 用 的 目的 地 址 
是 由 系统 在 关联 建立 阶段 选 定 的 主 目 的 地 址 ， 除 非 调用 者 在 
所 提供 的 sctp_sndrcvinfo 结 构 中 设置 了 MsG_ADDR_ovER 标 志 。 为 了 提供 
zm 调用 者 必须 使 用 伴随 辅助 数据 的 sendmsg 函 数 或 sctp_sendmsg 


(6) ”关联 事件 (将 在 9.14 市 讨论 的 众多 SCTP 通 知之 一 ) 可 能 被 启 
用 ， 因 此 要 是 应 用 进程 不 希望 收 到 这 些 事件 ， 就 得 使 用 scTP_EVENTS 套 
接 字 选项 显 式 禁止 它们 。 默 认 情 况 下 启用 的 唯一 事件 
是 sctp_data_io_event， 它 给 recvmsg 和 sctp_recvmsg 调 用 提供 辅助 数 
据 。 这 个 默认 设置 同时 适用 于 一 到 一 形式 和 一 到 多 形式 。 


最 初 开 发 SCTP 的 套 接 字 API 时 ， 一 到 多 形式 接口 被 定义 成 默认 情况 
下 也 开局 关联 事件 通知 。 该 API 文 档 的 后 续 版 本 禁止 了 一 到 一 和 一 到 多 
这 两 种 形式 接口 除 sctp_data_io_event 以 外 的 所 有 事件 通知 。 尺 管 如 
此 ， 并 非 所 有 实现 都 具备 这 样 的 行为 。 对 于 应 用 程序 开发 人 员 来 说 ， 显 











式 禁 止 ( 或 局 用 ) 不 想 要 的 《或 想 要 的 ) 通知 是 最 好 的 做 法 ， 能 够 确保 
不 论 代 码 移 植 到 哪 种 操作 系统 ， 总 是 导致 所 期 望 的 行为 。 


图 9-2 所 示 为 一 到 多 套 接 字 — 典 型 用 法 的 时 间 线 图 。 服 务 器 启动 后 打 
开 一 个 套 接 字 ，bind 一 个 地 址 ， 调 用 listen 以 允许 客户 建立 关联 ， 然 后 
吏 调 用 sctp_recvmsg 阻 塞 于 等 竺 第 一 个 消息 的 到 达 。 客 户 局 动 后 也 打开 
一 个 套 接 字 ， 并 调用 sctp_sendto， 它 导致 隐 式 建立 关联 ， 而 数据 请 求 
由 四 路 握手 的 第 三 个 分 组 朱 带 给 服务 器 。 服 务 器 收 到 该 请 求 后 进行 处 理 
并 同 该 客户 发 回 一 个 应 答 。 客 户 收 到 应 答 后 关闭 其 套 接 字 ， 从 而 终止 其 
上 的 关联 。 服 务 器 循环 回去 接收 下 一 个 消息 。 
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图 9-2 ”SCTP 一 到 多 形式 的 套 接 字 函 数 
本 例子 展示 的 是 一 个 达 代 服务 器 ， 来 自 许 多 关联 (也 就 是 许多 客 





FP) 的 《可 能 交错 的 ) 消息 能 够 由 单个 控制 线程 处 理 。 在 SCTP 中 ， 一 
个 一 到 多 套 接 字 也 能 够 结合 使 用 sctp_peeloff 消 数 (9.1277) 以 允许 组 
合 迭 代 服 务 器 模型 和 并 发 服务 器 模型 ， 它 们 的 关系 如 下 。 


(1) sctp_peeloff 国 数 用 于 从 一 个 一 到 多 套 接 字 和 剥离 出 某 个 特定 的 天 
联 (如 一 个 长 期 持续 的 会 话 ) ， 独 自 构成 一 个 一 到 一 式 套 接 字 。 

(2) ”剥离 出 的 关联 所 在 的 一 到 一 套 接 字 随 后 就 可 以 道 送 给 它 自 己 的 
线程 ， 或 者 遗 送 给 为 它 派生 的 进程 ( 束 像 在 并 发 模型 中 那样 )。 

(3) 与 此 同时 ， 主 线程 继续 在 原来 的 套 接 字 上 以 达 代 方式 处 理 来 目 
任何 剩余 关联 的 消 居 。 


一 到 多 式 SCTP 套 接 字 是 一 个 类 型 为 sock_sEQPACKET， 协 议 
为 IPPROT0_SCTP 的 网 际 网 套 接 字 【( 即 协议 族 为 AF_INET 或 AF_INET6) o 











9.3 sctp bindxrPA2ZW 


SCTP 服 务 器 可 能 希望 捆绑 与 所 在 主机 系统 相关 IP 地 址 的 一 个 子 
集 。 传 统 意 义 上 ，TCP 服 务 器 或 UDP 服务 器 要 么 捆绑 所 在 主机 的 某 个 地 
址 ， 要 么 捆绑 所 有 地 址 ， 而 不 能 捆绑 这 些 地 址 的 一 个 子 集 。sctp_bindx 
疯 数 允许 SCTP 套 接 字 捆绑 一 个 特定 地 址 子 集 。 


#include <netinet/sctp.h> 








int sctp bindx(int sockfd, const struct sockaddr *addrs, int addrcnt, int flags); 


uj: 若 成 功 则 为 9， 若 出 错 则 














Es 





为 -1 


sockfd 是 由 socket 隙 数 返回 的 套 接 字 描 述 符 。 第 二 个 参数 addrs 是 一 
个 指 回 紧凑 的 地 址 列表 的 指针 。 每 个 套 接 字 地 址 结构 紧 跟 在 前 一 个 套 接 
字 地 址 结构 之 后 ， 中 间 没 有 填充 字 节 。 例 子 见 图 9-4。 


传递 给 sctp_bindx 的 地 址 个 数 由 addrcnt 参 数 指定 。 jiags 参 数 指 + 
sctp_bindx 调 用 执行 图 9-3 所 示 的 两 种 行为 之 一 。 








SCTP BINDX ADD ADDR | 往 套 接 字 中 添加 地 址 
SCTP BINDX REM ADDR | 从 套 接 字 中 删除 地 址 


图 9-3 sctp bind x 函数 所 用 的 flags 参 数 














协议 旅 为 


AF INZT sizeot (sockaddr_in{}) 


192.168.1.1 


协议 旅 为 | 


AF IKETÉ sizeof(sockaddr in6()) 


[e80::1 


EL ey | 
addrcnt =3 AF TNRT Bizeof (sockaddr_in{}) 
10.0.1.2 J 





图 9-4 SCTP 调 用 所 需 的 紧凑 地 址 列表 格式 


sctp_bindx 调 用 既 可 用 于 已 绑 定 的 套 接 字 ， 也 可 用 于 未 绑 定 的 套 接 
字 。 对 于 未 绑 定 的 套 接 字 ，sctp_bindx 调 用 将 把 给 定 的 地 址 集合 捆绑 到 
其 上 。 对 于 已 绑 定 的 套 接 字 ， 若 指定 ScTP_BINDX_ADD_ADDR 则 把 额外 的 地 
址 加 入 套 接 字 描 述 符 ， 若 指定 ScTP_BINDX_REM_ADDR 则 从 套 接 字 描 述 符 的 
已 加 入 地 址 中 移 除 给 定 的 地 址 。 如 果 在 一 个 监听 套 接 字 上 执 
行 sctp_bindx 调 用 ， 那 么 将 来 产生 的 关联 将 使 用 新 的 地 址 配置 ， 已 经 存 
在 的 关联 则 不 受 影响 。 传 递 给 sctp_bindx 的 两 个 标志 是 互 斥 的 ， 如 果 同 
时 指定 ， 调 用 就 会 失败 ， 返 回 的 错误 码 为 ETNVAL。 所 有 和 套 接 字 地 址 结构 
的 端口 号 必须 相同 ， 而 且 必 须 与 已 经 绑 定 的 端口 号 相 匹配 ， 否 则 调用 就 
会 失败 ， 返 回 EINVAL 错 误 码 。 


如 果 一 个 端点 支持 动态 地 址 特性 ， 指 定 ScTP_BINDX_ADD_ADDR 

或 scTP_BINDX_REM_ADDR 标 志 调 用 sctp_bindx 将 导致 该 端点 向 对 端 发 送 一 
个 合适 的 消息 ， 以 修改 对 端的 地 址 列表 。 由 于 增 减 一 个 已 连接 关联 的 地 
址 只 是 一 个 可 选 的 功能 ， 因 此 不 文 持 本 功能 的 实现 将 返回 EoPNOTSUPP。 
注意 ， 本 功能 正确 操作 要 求 两 个 端点 都 文 持 这 个 特性 。 本 特性 对 于 文 持 
动态 接口 供给 的 系统 可 能 有 用 ， 举 例 来 说 ， 如 果 调 出 一 个 新 的 以 太 网 接 
口 ， 那 么 应 用 进程 可 以 指定 ScTP_BINDX_ADD_ADDR 标 志 在 已 经 存在 的 连接 
上 启动 使 用 这 个 接口 。 














9.4 sctp_connectx%] BY 


#include <netinet/sctp.h> 


int sctp connectx(int sockfd, const struct sockaddr *addrs, int addrcnt); 
返回 : 若 成 功 则 为 9， 若 出 错 则 
为 -1 








270—274 


sctp connectxPA Zi H] T XE Bes] — Ph Z fg EWL. VR ER UE Eaddrs 
参数 中 指定 addrcnt 个 全 部 属于 同一 对 端的 地 址 。addrs 参 数 是 一 个 紧凑 
的 地 址 列表 ， 如 图 9-4 所 示 。SCTP 栈 使 用 其 中 一 个 或 多 个 地 址 建立 关 
联 。 列 在 addrs 参 数 中 的 所 有 地 址 都 被 认为 是 有 效 的 经 过 证 实 的 地 址 。 


9.5 sctp getpaddrsrA 2 


getpeernamePK ZI Ze A Sc FF A Te E TA; SHF 
SCTP 时 它 仅 仅 返 回 主 目的 地 址 。 如 果 需 要 知道 对 端的 所 有 地 址 ， 那 么 
Wi E H]sctp. getpaddrsrÉ Zi. 


#include <netinet/sctp.h> 





int sctp getpaddrs(int sockfd, sctp assoc t id, struct sockaddr **addrs); 


"T 返回 : 车 成 功 则 为 存放 在 aqdrs 中 的 对 端 地 址 数 ， 若 出 和 
则 为 -1 








ak 


sockfdZ Be FA socket Ph BURFI NBR TERNI. id XIUE— AZ 
式 套 接 字 的 关联 标识 ， 而 一 到 一 式 套 接 字 则 会 忽略 该 字段 。addrs 参 数 
是 一 个 地 址 指针 ， 而 地 址 内 容 是 由 本 函数 动态 分 配 并 填 入 的 紧凑 的 地 址 
列表 。 关 于 这 个 返回 值 的 细 市 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 调 用 者 
应 该 使 用 sctp_freepaddrs 释 放 所 分 配 的 资源 。 





9.6 sctp freepaddrsriK ZA 


PEZ sctp_freepaddrs eh AFF LH sctp_getpaddrs eh 2/27 GI] OF VE - 
#include <netinet/sctp.h> 


void sctp freepaddrs(struct sockaddr *addrs); 


addrs 参 数 是 指向 由 sctp_getpaddrs 返 回 的 地 址 数组 的 指针 。 


9.7 sctp getladdrsrA ZW 


sctp_getladdrs 函 数 用 于 获取 属于 某 个 关联 的 本 地 地 址 。 当 需要 知 
道 一 个 本 地 端点 究竟 在 使 用 哪些 本 地 地 址 时 《它们 可 能 是 主机 所 有 地 址 
的 某 个 子 集 ) ， 可 以 调用 本 函数 。 

#include «netinet/sctp.h» 


int sctp getladdrs(int sockfd, sctp assoc t id, struct sockaddr **addrs); 





返回 : 若 成 功 则 为 存放 在 addrs 中 的 本 端 地 址 数 ， 若 出 错 则 为 -1 
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sockfd 参 数 是 由 socket 函 数 返 回 的 套 接 字 摘 述 符 。id 参 数 是 一 到 多 
式 套 接 字 的 关联 标识 ， 而 一 到 一 式 套 接 字 则 会 忽略 它 。addrs 参 数 是 一 
个 地 址 指针 ， 而 地 址 内 容 是 由 本 函数 动态 分 配 并 填 入 的 紧凑 的 地 址 列 
表 。 关 于 这 个 返回 值 的 细节 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 调 用 者 应 
该 使 用 sctp_freeladdrs 释 放 所 分 配 的 资源 。 





9.8 sctp_freeladdrspk ZA 


sctp_freeladdrs PA AUREL 由 sctp_getladdrs KÁ ay Hic 的 资源 o 


#include <netinet/sctp.h> 


void sctp freeladdrs(struct sockaddr *addrs); 


addrs 参 数 是 指向 由 sctp_getladdrs 返 回 的 地 址 数组 的 指针 。 


9.9 sctp_sendmsg Ph BY 


IBLE (EFS EEBS 4 BH A sendmsg žit (14%) ， 应 用 进程 能 够 
控制 SCTP 的 各 种 特性 。 然 而 既然 使 用 辅助 数据 可 能 不 大 方便 ， 许 多 
SCTP 实 现 提 供 了 一 个 辅助 函数 库 调 用 (有 可 能 作为 系统 调用 实现 〉， 
以 方便 应 用 进程 使 用 SCTP 的 高 级 特性 。 


#include «netinet/sctp.h» 


ssize t sctp sendmsg(int sockfd, const void *msg, size t msgsz, 
const struct sockaddr *to, socklen t tolen, 
uint32 t ppid, 
uint32 t flags, uinti16 t stream, 
uint32 t timetolive, uint32 t context); 


返回 : 车 成 功 则 为 所 写字 节 数 ， 若 出 错 则 








sctp_sendmsg 的 使 用 者 以 指定 更 多 参数 为 代价 简化 了 发 送 方 
法 。sockfd 参 数 是 由 socket 函 数 返回 的 套 接 字 描述 人 符 。msg 参 数 指 同 一 个 
长 度 为 msgsz 字 节 的 缓冲 区 ， 其 中 内 容 将 发 送 给 对 端 端点 to。tolen 参 数 指 
定 存放 在 to 中 的 地 址 长 度 。ppid 参 数 指定 将 随 数 据 块 传递 的 净 集 协议 标 
识 符 。flags 参 数 将 传递 给 SCTP 栈 ， 用 以 标识 任何 SCTP 选 项 ， 图 7-16 给 
出 了 这 个 参数 的 有 效 取 值 。 
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调用 者 在 stream 参 数 中 指定 一 个 SCTP 流 号 。 调 用 者 可 以 在 lifetime 参 
数 中 以 宫 秒 为 单位 指定 消息 的 生命 期 ， 其 中 0 表示 无 限 生 命 期 。comntext 
参数 用 于 指定 可 能 有 的 用 户 上 下 文 。 用 户 上 下 文 把 通过 消息 通知 机 制 收 
到 的 某 次 失败 的 消息 发 送 与 某 个 特定 于 应 用 的 本 地 上 下 文 关联 起 来 。 举 
例 来 说 ， 要 发 送 一 个 消息 到 流 号 1， 发 送 标志 设 为 MsG_PR_ScTP_TTL， 生 
命 期 设 为 1000 坚 秒 ， 净 答 协 议 标 识 符 为 24， 上 下 文 为 52， 调 用 格式 如 
下 : 








ret = sctp sendmsg(sockfd, 
data, datasz, &dest, sizeof(dest), 
24, MSG PR SCTP TTL, 1, 1000, 52); 





这 种 方法 比分 配 必要 的 辅助 数据 空间 并 在 msghdr 结 构 中 设置 合适 的 
结构 容易 些 。 注 意 ， 如 果实 现 把 sctp_sendmsg 函 数 映 射 成 sendmsg 函 数 ， 
那么 sendmsg 的 flags 参 数 被 设 为 0。 





9.10 sctp_recvmsgPk ZA 


与 sctp_sendmsg 一 样 ，sctp_recvmsg 国 数 也 为 SCTP 的 高 级 特性 提供 
一 个 更 方便 用 户 的 接口 。 使 用 本 函数 不 仅 能 获取 对 端的 地 址 ， 也 能 获取 
通常 伴随 recvmsg 函 数 调用 返回 的 msg_flags 参 数 ( 如 MSG_NOTIFICATION 
和 MSG_EOR 等 ) 。 本 函数 也 允许 获取 已 读 入 消息 缓冲 区 中 的 伴随 所 接收 
消息 的 sctp_sndrcvinfo 结 构 。 注 意 ， 如 果 应 用 进程 想 要 接 
收 sctp_sndrcvinfo 信 息 ， 那么 必须 使 用 ScTP_EVENTS 套 接 字 选项 预订 
sctp data io event 〈 默 认 情 况 下 开局 ) 。 


#include <netinet/sctp.h> 


ssize_t sctp_recvmsg(int sockfd, void *msg, size_t msgsz, 
struct sockaddr *from, socklen_t *fromlen, 
struct sctp_sndrcvinfo *sinfo, 
int *msg flags); 


BE: 车 成 功 则 为 所 读 字 节 数 ， 若 出 错 则 为 -1 





本 函数 调用 返回 时 ，msg 参 数 所 指 缓冲 区 中 被 填 入 最 多 msgsz 字 节 的 
数据 。 消 息 发 送 者 的 地 址 存放 在 from 参 数 中 ， 地 址 结构 大 小 存放 
在 fromlen 参 数 中 。msg_flags 参 数 中 存放 可 能 有 的 消息 标志 。 如 果 通 知 的 
sctp_data_io_event 被 启用 (默认 情形 ) » LAUS SGIBEGJHOXHJZH A 
居 来 填充 sctp_sndrcvinfo 结 构 。 注 意 ， 如 果实 现 把 sctp_recvmsg 函 数 映 
射 成 recvmsg 函 数 ， 那 么 recvmsg 的 flags 参 数 被 设 为 0。 
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9.11 sctp opt inforAZW 


sctp_opt_info 函 数 是 为 无 法 为 SCTP 使 用 getsockopt 函 数 的 那些 实 
现 提供 的 。getsockopt 无 法 支持 SCTP 的 原因 在 于 有 些 SCTP 套 接 字 选项 
(如 scTP_STATUS) 需要 一 个 入 出 (in_out ) 变量 传递 关联 标识 。 对 于 无 
法 为 getsockopt 函 数据 供 入 出 变量 的 系统 来 说 ， 只 能 使 用 sctp_opt_info 
函数 。 对 于 FreeBSD 之 类 人 允许 在 套 接 字 选 项 中 使 用 出 入 变量 的 系统 来 
说 ，sctp_opt_info 是 一 个 把 参数 重新 包装 到 合适 的 getsockopt 调 用 中 的 
库 函 数 。 从 可 移植 性 考虑 ， 应 用 程序 应 该 对 需要 入 出 变量 的 所 有 选项 
(7.1075) fi Hisctp opt info Zi. 








#include <netinet/sctp.h> 


int sctp_opt_info(int sockfd, sctp_assoc_t assoc_id, int opt, 
void *arg, socklen_t *siz); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 











sockfd 参 数 给 出 获取 其 上 套 接 字 选 项 信息 的 套 接 字 描述 从 。assoc_id 
参数 给 出 可 能 存在 的 关联 标识 。opt 参 数 是 SCTP 的 套 接 字 选 项 ( 见 7.10 
W) 。arg 给 出 套 接 字 选项 参数 ，siz 是 一 个 socklen_t 类 型 指针 ， 用 于 存 
放 参 数 的 大 小 。 


9.12 sctp_peeloff rk 2X 


如 前 所 述 ， 有 可 能 从 一 个 一 到 多 式 套 接 字 中 抽取 一 个 关联 ， 构 成 单 
独 一 个 一 到 一 式 套 接 字 。 其 语义 很 像 带 有 一 个 额外 参数 的 accept 函 数 。 
调用 者 把 一 到 多 式 套 接 字 的 sockfd 和 待 抽 取 的 关联 标识 id 传 递 给 函数 调 
用 。 调 用 结束 时 将 返回 一 个 新 的 套 接 字 描述 符 ， 它 是 一 个 与 所 请 求 关联 
对 应 的 一 到 一 式 套 接 字 描述 符 。 


#include <netinet/sctp.h> 








int sctp peeloff(int sockfd, sctp assoc t id); 








本 :， 若 成 功 则 为 一 个 新 的 套 接 字 描 述 符 ， 若 出 错 则 











Es 




















为 -1 
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9.13 shutdown PK 2 


6.6 节 讨论 的 shutdown 函 数 可 用 于 一 到 一 式 接口 的 SCTP 端 点 。 由 于 
SCTP 设 计 成 不 提供 半 关 闭 状态 ，SCTP 端 点 对 shutdown 调 用 的 反应 不 同 
于 TCP 端 点 。 当 相互 通信 的 两 个 SCTP 端 点 中 任何 一 个 发 起 关联 终止 序 
列 时 ， 这 两 个 端点 都 得 把 已 排队 的 任何 数据 发 送 掉 ， 然 后 关闭 关联 。 关 
联 主动 打开 的 发 起 端点 改 用 shutdown 而 不 是 close 的 可 能 原因 是 : 同一 
个 端点 可 用 于 连接 到 一 个 新 的 对 端 端 点 。 与 TCP 不 同 ， 新 的 套 接 字 打开 
之 前 不 必 调 用 close。SCTP 人 允许 一 个 端点 调用 shutdown，shutdown 结 来 
之 后 ， 这 个 问 点 束 可 以 重用 原 套 接 字 连接 到 一 个 新 的 对 端 。 注 意 ， 如 果 
这 个 端点 没有 等 到 SCTP 关 联 终止 序列 结束 ， 新 的 连接 融会 失败 。 图 9-5 
给 出 了 这 种 情形 下 的 典型 函数 调用 。 














客户 LESE 
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Le ready » a 
readily] > 
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— — SACK ' SRUTDOWN | 
ge! ved MSG NOTIEICATION 


SHUTDOWN ACK __ 


Sltumowy c 
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图 9-5 调用 shutdown 关 闭 一 个 SCTP 关 联 


注意 ， 图 9-5 标 出 用 户 接 收 Mse_NoTIFICATION 事 件 。 如 果 用 户 未 曾 预 
订 接 收 这 些 事件 ， 那 么 返回 的 是 结果 长 度 为 0 的 read 调 用 。6.6 节 讲解 了 
shutdown 函 数 对 TCP 的 效果 。 对 于 SCTP，shutdown 函 数 的 howto 参 数 语 
XU. 


read VISG NOTIFTC ATION 























shuT_RD “与 6.6 节 讨论 的 对 于 TCP 的 语义 等 同 ， 没 有 任何 SCTP 协 议 
行为 发 生 。 


SHUT_WR 禁止 后 续 发 送 操作 ， 激 活 SCTP 关 联 终止 过 程 ， 以 此 终止 
当前 关联 。 注 意 ， 本 操作 不 提供 半 关 闭 状 态 ， 不 过 允许 本 地 端点 读 取 已 
经 排队 的 数据 ， 这 些 数据 是 对 端 在 收 到 SCTP 的 SHuTDowN 消 息 之 前 发 送 
给 本 端的 。 


SHUT_RDWR ”禁止 所 有 read 操 作 和 write 操作 ， 激 活 SCTP 关 联 终止 过 
Fee 传送 到 本 地 端点 的 任何 已 经 排队 的 数据 都 得 到 确认 ， 然 后 悄然 丢 
FF o 


9.14 通知 


SCTP 为 应 用 程序 提供 了 多 种 可 用 的 通知 。SCTP 用 户 可 以 经 由 这 些 
通知 追踪 相关 关联 的 状态 。 通 知 传递 的 是 传输 级 的 事件 ， 包 括 网 络 状 态 
变动 、 关 联 启动 、 远 程 操作 错误 以 及 消息 不 可 递送 。 不 论 是 一 到 一 式 接 
口 还 是 一 到 多 式 接 口 ， 默 认 情 况 下 除 sctp_data_io_event 以 外 的 所 有 事 
件 都 是 被 禁止 的 。 我 们 将 在 23.7 节 查看 一 个 使 用 通知 的 例子 。 


使 用 scTP_EVENTS 套 接 字 选项 可 以 预订 8 个 事件 。 其 中 7 个 事件 产生 
称 为 通知 (notification) 的 额外 数据 ， 通 知 本 喘 可 经 由 普通 的 套 接 字 质 
述 符 获 取 。 当 产生 它们 的 事件 发 生 时 ， 这 些 通知 内 髓 在 数据 中 加 入 套 接 
字 描 述 符 。 在 预订 相应 通知 的 前 提 下 读 取 某 个 套 接 字 时 ， 用 户 数据 和 通 
知 将 在 套 接 字 缓 冲 区 中 交错 出 现 。 为 了 区 分 来 自 对 端的 数据 和 由 事件 产 
生 的 通知 ， 用 户 应 该 使 用 recvmsg 函 数 或 sctp_recvmsg 函 数 。 如 果 所 返回 
的 数据 是 一 个 事件 通知 ， 那 么 这 两 个 函数 返回 的 msg_flags 参 数 将 含 
有 MSG_NOTIFICATION 标 志 。 这 个 标志 告知 应 用 进程 刚刚 读 入 的 消息 不 是 
来 上 自 对 端的 数据 ， 而 是 来 自 本 地 SCTP 栈 的 一 个 通知 。 


每 种 通知 都 采用 标签 一 长 度 一 值 Ctag-length-value, TLV) 格式 ， 
其 中 前 8 个 字 节 给 出 通知 的 类 型 和 总 长 度 。 开 局 sctp_data_io_event 事 件 
《这 一 点 对 于 SCTP 的 两 种 接口 都 是 默认 设置 ) 将 导致 每 次 读 入 用 户 数 
据 都 收 到 一 个 sctp_sndrcvinfo 结 构 。 一 般 情况 下 ， 这 些 信 息 通 过 调 
用 recvmsg 作 为 辅助 数据 获取 。 应 用 进程 也 可 以 调用 sctp_recvmsg， 同 样 
的 信息 将 被 填写 到 由 某 个 指针 指 出 的 sctp_sndrcvinfo 结 构 中 o 


含有 SCTP 错 误 起 因 代 码 字 段 的 通知 有 两 种 。 该 字段 的 值 列 在 REFC 
2960 [Stewart et al. 2000] 的 节 以 及 http:/www.iana.org/assignments/sctp- 
parameters] “CAUSE CODES” — i , 
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通知 的 格式 如 下 : 


struct sctp tlv { 

u inti16 t sn type; 
u int16 t sn flags; 
u int32 t sn length; 
HN 


/* notification event */ 

union sctp notification { 
struct sctp tlv sn header; 
struct sctp assoc change sn assoc change; 
struct sctp paddr change sn paddr change; 
struct sctp remote error sn remote error; 
struct sctp send failed sn send failed; 
struct sctp shutdown event sn shutdown event; 
struct sctp adaption event sn adaption event; 
struct sctp pdapi event sn pdapi event; 


}; 


注意 ，sn_header 字 段 用 于 解释 类 型 值 ， 以 便 译 解 出 所 处 理 的 实际 
消息 。 图 9-6 训 析 f sn header. sn_type 的 取 值 与 ScTP_EVENTS 套 接 字 选项 
中 使 用 的 预订 字段 之 间 的 对 应 关系 。 


预订 子 段 
SCTP ASSOC CHANGE sctp association event 
SCTP_PEER ADDR CHANGE sctp address event 
SCTP REMOTE ERROR sctp peer error evert 


SCTP SEND FAILED sctp send failure event 

SCTP SHUTDOWN EVENT sctp_shutdown_evert 
SCTP_ADAPTION INDICATION sctp_adaption_layer_event 
SCTP PARTIAL DELIVERY EVENT sctp partial delivery event 





图 9-6 ”sn_type 字 段 和 事件 预订 字段 


每 种 通知 有 各 目的 结构 ， 给 出 在 传输 中 发 生 的 相应 事件 的 具体 信 





4U o 
1. SCTP ASSOC CHANGE 


ASIEN AU ei AUD EAE BAS REE): 或 者 已 开始 一 个 新 的 关 
联 ， 或 者 已 结束 一 个 现 有 的 关联 。 本 事件 提供 的 信息 定义 如 下 : 


struct sctp_assoc change { 
u inti16 t sac type; 
u int16 t sac flags; 
u int32 t sac length; 
u int16 t sac state; 
u inti16 t sac error; 
u int16 t sac outbound streams; 
u int16 t sac inbound streams; 
Sctp assoc t sac assoc id; 
uint8 t sac info[]; 








其 中 sac_state 给 出 关联 上 发 生 的 事件 类 型 ， 取 如 下 值 之 一 。 
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SCTP_CoMM_UP ”本 状态 指示 某 个 新 的 关联 刚刚 启动 。 其 中 内 入 流 和 
外 出 流 字 段 分 别 指出 各 自 方向 有 多 少 流 可 用 。 关 联 标 识字 段 给 出 这 个 关 
联 在 本 地 SCTP 栈 的 唯一 访问 标识 。 


SCTP. COMM LOST ”本 状态 指示 由 关联 标识 字段 给 出 的 关联 已 经 关 
闭 ， 原 因 既 可 以 是 触发 了 某 个 不 可 达 门 限 ( 例 如 本 地 SCTP 端 点 多 次 超 
时 触及 门限 ， 表 明 对 端 不 再 可 达 ) ， 也 可 以 是 对 端 执行 了 对 于 该 关联 的 
中 止 性 关闭 (通常 使 用 so_LINGER 套 接 字 选 项 或 以 Ms6_ABORT 标 志 使 
Hisendmsg) 。 特 定 于 用 户 的 信息 存放 在 本 通知 的 sac_info 字 段 。 


SCTP_RESTART ”本 状态 指示 对 端 已 经 重启 。 本 通知 最 可 能 的 原因 是 
对 端 主 机 骨 江 并 重新 启动 了 。 应 用 进程 应 该 验证 每 个 方向 流 的 数 日 ， 因 
为 这 些 值 可 能 在 重启 过 程 中 发 生变 动 。 


SCTP_SHUTDOWN_coMP “本 状态 指示 由 本 地 端点 激发 的 关联 终止 过 程 
《或 者 通过 调用 shutdown， 或 者 通过 以 MsG_EoF 标 志 使 用 sendmsg) 已 经 
结束 。 对 于 一 到 一 式 接口 ， 收 到 本 通知 后 ， 相 应 套 接 字 描述 符 可 再 次 用 
于 连接 到 另 一 个 对 端 。 


SCTP CANT STR ASSOC ”本 状态 指示 对 端 对 于 本 端的 关联 建立 尝试 
〈 例 如 INIT 消 息 ) 未 曾 给 出 啊 应 。 


Sac_error 字 段 存放 导致 本 关联 变动 的 SCTP 协 议 错 误 起 因 代 
人 码 。sac_outbound_streams 和 sac_inbound_streams 字 段 存 放 本 关联 上 每 个 
方 同 协定 的 流 数 目 。sac_assoc_id 字 段 存 放 本 关联 的 唯一 句柄 ， 不 论 是 
套 接 字 选项 还 是 以 后 的 通知 都 可 用 它 标 识 本 关联 。sac_info 字 上 段 存 放 用 
户 可 用 的 其 他 信息 。 举 例 来 说 ， 如 果 某 个 关联 被 对 端的 某 个 用 户 目 定义 
错误 中 止 ， 这 个 错误 就 存放 在 该 字段 中 。 


2. SCTP_PEER_ ADDR CHANGE 


ASEAN E AY Pr IT EE SJ Y ARESE. AREE UTE 
































Wick CEA ASANO TA BUR SE B ， 也 可 以 是 恢复 性 质 
za wee mM eee ) 。 伴 随地 址 变动 的 结 
A HP: 


282 


struct sctp paddr change ( 
u inti16 t spc type; 
u int16 t spc flags; 
u int32 t spc length; 
struct sockaddr storage spc aaddr; 
u int32 t spc state; 
u int32 t spc error; 
sctp assoc t spc assoc id; 





了 


其 中 spc_aaddr 字 段 存 放 本 事件 所 影 啊 的 对 端 地 址 。spc_state 字 段 存 
放 图 9-7 说 明 的 值 之 一 。 


SCTF ADDR ADDED 地 址 现 已 加 入 关联 

SCTF ADDR AVAILABLE Ji Uer 

SCTE ADDR CONFIRMED 地 址 现 已 证 实 有 效 
SCTP_ADDR_MADE_PRIM XO. E H B9 tui 
SCTP_ADDR_REMCVED 地 址 不 再 属于 其 联 


SCTF_ADDR_UNREACHABL& 地 址 不 再 可 过 





图 9-7 ”SCTP 对 端 地 址 状态 通知 


当 一 个 地 址 被 声明 为 ScTP_ADDR_UNREACHABLE 状 态 时 ， 发 送 到 该 地 址 
的 任何 数据 将 被 重新 路 由 到 一 个 候选 地 址 。 注 意 ， 其 中 一 些 状态 仅仅 适 
用 于 支持 动态 地 址 选项 的 SCTP 实 现 〈 例 如 scTP_ADDR_ADDED 和 
SCTP ADDR REMOVED) 。 


spc_error 字 段 存 放 用 于 提供 关于 事件 更 详细 信息 的 通知 错误 代 
人 码 ，spc_assoc_id 存 放 关 联 标 识 。 








3.SCTP_REMOTE_ERROR 


Xt Fm A AY ESS AS Hig AIS SRE ATH A. REET SY UA 


指示 当前 关联 的 各 种 出 错 条 件 。 当 开局 本 通知 时 ， 整 个 错误 其 (error 
chunk) 将 以 内 髓 格式 传递 给 应 用 进程 。 本 消 恩 的 格式 如 下 : 


struct sctp remote error { 
u inti16 t sre type; 

u inti16 t sre flags; 

u int32 t sre length; 

u inti16 t sre error; 

sctp assoc t sre assoc id; 
u int8 t sre data[]; 


ti 





其 中 sre_error 存 放 SCTP 协 议 错误 起 因 代 码 ，sre_assoc_id 存 放 关 联 
标识 ，sre_data 以 内 骸 格 式 存放 完整 的 错误 。 


283 
4.SCTP SEND FAILED 


JG1 AA IDE BE TEE IS OESTE SORS EDS [LR] JP ASIA JA OBL T 
跟 有 一 个 关联 故障 通知 。 大 多 数 情 况 下 一 个 消息 不 能 被 递送 的 唯一 原因 
征 关 联 已 经 失效 。 关 联 有 效 前 提 下 消息 递送 失败 的 唯一 情况 是 使 用 了 
SCTP 的 部 分 可 靠 性 扩展 。 本 通知 提供 的 结构 如 下 : 


struct sctp send failed { 

u inti16 t ssf type; 

u inti16 t ssf flags; 

u int32 t ssf length; 

u int32 t ssf error; 

struct sctp sndrcvinfo ssf info; 
sctp assoc t ssf assoc id; 

u int8 t ssf data[]; 

HN 








其 中 ssf_flags 可 取 以 下 两 个 值 之 一 。 


e SCTP_DATA_UNSENT: 指示 相应 消息 无 法 发 送 到 对 端 ( 例 如 流 控 导致 
该 消息 无 法 在 其 生命 期 终止 之 前 送出 ) ， 因 此 对 端 永远 收 不 到 该 消 
自 


e SCTP DATA SENT: 指示 相应 消息 已 经 至 少 发 送 到 对 端 一 次 ， 然 而 对 
端 一 直 没 有 确认 。 这 种 情况 下 ， 对 端 可 能 收 到 了 该 消息 ， 不 过 无 法 
给 出 确认 。 





这 种 区 分 对 于 事务 性 协议 可 能 比较 重要 ， 因 为 这 样 的 协议 可 能 需要 
基于 是 否 收 到 某 个 给 定 消息 而 采取 不 同 的 行为 以 恢复 一 个 破裂 的 连 
接 。ssf_error 字 段 若 不 为 0 则 存放 一 个 特定 于 本 通知 的 错误 代 
码 。ssf_info 字 段 车 有 的 话 提供 的 是 发 送 数据 时 传递 给 内 核 的 信息 (如 流 
数目 、 上 下 文 等 ) 。ssf_assoc_id 存 放 的 是 关联 标识 ，ssf_data 存 放 未 能 
递送 的 消息 本 身 。 


5.SCTP_SHUTDOWN_EVENT 


当 对 端 发 送 一 个 SHUTDOWN 块 到 本 地 端点 时 ， 本 通知 被 传递 给 应 
用 进程 。 本 通知 告知 应 用 进程 在 相应 套 接 字 上 不 再 接受 新 的 数据 。 所 有 
当前 已 排队 的 数据 将 被 发 送出 去 ， 发 送 完毕 后 相应 关联 就 被 终止 。 本 通 
知 的 格式 如 下 : 


struct sctp shutdown event { 
uinti6 t sse type; 
uinti6 t sse flags; 
uint32 t sse length; 

sctp assoc t sse assoc id; 


HN 
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其 中 sse_assoc_id 存 放 正 在 关闭 中 不 再 接受 数据 的 那个 关联 的 关联 


标识 。 
6.SCTP ADAPTION INDICATION 


有 些 实现 文 持 适 应 层 指 示 参 数 Cadaption layer indication 
parameter) 。 该 参数 在 INIT 和 INIT-ACK 中 交换 ， 用 于 通知 对 端 将 执行 
什么 类 型 的 应 用 适应 行为 。 本 通知 的 格式 如 下 : 


struct sctp_adaption event { 

u inti16 t sai type; 

u inti16 t sai flags; 

u int32 t sai length; 

u int32 t sai adaption ind; 
sctp assoc t sai assoc id; 


HN 





其 中 sai_assoc_id 字 上 段 给 出 本 适应 层 通 知 的 关联 标 
识 。sai_adaption_ind 字 段 给 出 对 端 在 INIT 或 INIT-ACK 消 恩 中 传递 给 本 


地 主机 的 32 位 整数 。 外 出 适应 层 使 用 ScTP_ADAPTION_LAYER 套 接 字 选项 
(7.10 节 ) 设置 。 适 应 层 INITINIT-ACK 选 项 在 [Stewart et al. 2003b ] 
中 讲述 ， [Stewart et al. | 给 出 了 本 选项 在 远程 直接 内 存 访 问 / 直 接 数据 
放置 中 的 示例 用 法 。 


7.SCTP_PARTIAL_DELIVERY_EVENT 


部 分 递送 应 用 程序 接口 用 于 经 由 套 接 字 缓冲 区 辐 用 户 传送 大 消息 。 
考虑 一 个 用 户 写 出 单个 大 小 为 4MB 的 消息 。 如 此 大 小 的 消息 有 可 能 耗 尽 
系统 资源 。 要 是 一 个 SCTP 实 现 没 有 在 整个 消息 到 达 之 前 承 开 始 递送 它 
的 机 制 ， 那 就 无 法 处 理 这 样 的 消息 。 能 够 如 此 递送 消息 的 实现 称 为 具备 
部 分 递送 API。 部 分 递送 API 由 SCTP 实 现 如 此 调用 : 置 空 msg_flags 字 段 
发 送 一 个 消息 的 各 部 分 数据 ， 直 到 准备 递送 最 后 一 部 分 数据 为 止 。 发 送 
最 后 一 部 分 数据 时 把 msg_flags 字 段 设 置 为 MsG_EoR。 注 意 ， 如 果 应 用 进 
程 准 备 接收 大 消 忠 ， 那 就 应 该 使 用 recvmsg 或 sctp_recvmsg， 以 便 查 
看 msg_flags 字 段 确定 是 否 出 现 本 条 件 。 


有 些 情况 下 ， 部 分 递送 API 需 要 癌 应 用 进程 传递 状态 信息 。 举 例 来 
说 ， 如 果 需 要 中 止 一 次 部 分 递送 API 调 
用 ，SCTP_PARTIAL_DELIVERY_EVENT 通 知 就 得 送 给 接收 应 用 进程 。 本 通知 
的 格式 如 下 : 
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struct sctp_pdapi event { 
uint16_t pdapi type; 
uinti16 t pdapi flags; 
uint32 t pdapi length; 
uint32 t pdapi indication; 
sctp assoc t pdapi assoc id; 


其 中 pdapi_assoc_id 字 段 给 出 部 分 递送 API 事 件 发 生 的 关联 标 
识 。pdapi_indication 存 放 发 生 的 事件 。 目 前 该 字段 的 唯一 有 效 值 
是 scTP_PARTIAL_DELIVERY_ABORTED， 它 指出 当前 活跃 的 部 分 递送 已 被 中 
IE. 


9.15 ”小结 


SCTP 为 应 用 程序 开发 人 员 提 供 了 两 个 接口 式样 : 为 便于 移植 到 
SCTP 而 基本 上 与 现 有 TCP 应 用 程序 兼容 的 一 到 一 式 ， 以 及 允许 发 挥 
SCTP 所 有 特性 的 一 到 多 式 。sctp_peeloff 冰 数 提供 了 从 一 种 式样 的 关联 
中 抽取 出 另 一 种 式样 的 关联 的 一 种 方法 。SCTP 还 提供 不 少 传 输 事件 通 
人 d 
六 的 关联 。 


5 Oe 0 0 VINE UU eee 
e WI 

sctp bindx. sctp connectx. sctp_getladdrs, sctp_getpaddrs< AŽ 
提供 了 更 好 地 控制 和 查看 众多 地 址 的 方法 ， 这 些 地 址 共同 构成 一 个 
SCTP 关 联 。 诸 如 sctp_sendmsg 和 scpt_recvmsg 等 工具 函数 可 以 简化 这 些 
高 级 特性 的 使 用 。 我 们 将 在 第 10 章 和 第 23 章 中 通过 例子 详细 探讨 本 章 引 
入 的 许多 概念 。 





习题 
9.1 什么 情形 下 应 用 程序 开发 人 员 最 可 能 使 用 sctp_peeloff 函 数 ? 


9.2 ”在 讨论 一 到 多 式 接口 时 我 们 说 过 “ 当 一 个 客户 关闭 其 关联 时 ， 
其 服务 器 也 将 目 动 关 闭 同 一 个 关联 ”， 请 说 明 原 因 。 


9.3 ”为 什么 必须 使 用 一 到 多 式 接 口才 外 在 四 路 握手 的 第 三 个 分 组 
E m (提示 : 在 关联 建立 阶段 必须 具备 数据 发 送 能 力 才 能 这 人 么 
故 。) 


is 9.4 FET ATR Bae A UR ie AY = T RU UST 2 BI TE 
数据 ? 





EE 是 所 绑 定 地 址 的 茶 个 合适 的 子 集 。 
情形 下 发 
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第 10 章 ”SCTP 和 客户 /服务 器 程序 例子 


10.1 概述 


我 们 将 在 本 间 使 用 第 4 章 和 第 9 革 中 介绍 的 基本 函数 编写 一 个 完整 的 
一 到 多 式 SCTP 客 户 /服务 器 程序 例子 。 这 个 简单 的 例子 类 似 于 第 5 章 中 给 
出 的 回 射 服 务 器 ， 执 行 如 下 步骤。 


(1) 客户 从 标准 输入 读 入 一 行文 本 ， 并 发 送 给 服务 器 。 该 文本 行 遵 
循 [#]text 格 式 ， 方 括 弧 中 的 数字 是 在 其 上 发 送 该 文本 消息 的 SCTP 流 











(2) 服务 器 从 网 络 接收 这 个 文本 消息 ， 把 在 其 上 到 达 该 消 妃 的 流 号 
增 1， 再 在 新 的 流 号 上 发 送 回 同一 个 文本 消息 给 客户 。 

(3) 客户 从 网 络 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 ， 舟 容 包 
括 流 号 、 流 序列 号 和 文本 串 。 
和 
PRI BBL 


fgets 
标准 输入 








sctp recvmsg 





SCTP ectp sendnmeg 


TUO 










setp recvesg sctp_sendmsg 






标准 输出 Brine | 
图 10-1 简单 的 SCTP 流 分 回 射 客户 /服务 器 
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我 们 在 客户 与 服务 器 之 间 画 了 两 个 代表 所 用 单 回 流 的 第 头 ， 不 过 整 
个 关联 是 全 双 工 的 。fgets 和 fputs 这 两 个 函数 来 自 标 准 1/O 函 数 库 。 我 们 


没有 使 用 3.9 节 定义 的 writen 和 readline 这 两 个 函数 ， 因 为 没有 必要 。 相 
反 ， 我 们 改 用 在 9.9 节 和 9.10 节 定义 的 sctp_sendmsg 和 sctp_recvmsg 国 
数 。 








本 例子 使 用 一 到 多 式 接 口 的 服务 器 。 如 此 抉择 是 有 原因 的 。 第 5 章 


中 的 例子 可 以 略 作 修改 就 运行 在 SCTP 之 上 : 把 socket 函 数 调用 改 为 指 
定 IPPROTO_SCTP 而 不 是 IPPRoTO_TCP 作 为 第 三 个 参数 。 然 而 如 此 简单 的 改 
动 难以 发 挥 SCTP 提 供 的 除 多 宿 以 外 的 其 他 特性 。 使 用 一 到 多 式 接口 允 
许 使 用 SCTP 的 所 有 特性 。 


10.2 SCTP— E)Z XX 27 IL HAS ds Fe 
Fr: mainrA2W 


我 们 的 SCTP 客 户 和 服务 喜 程 序 依循 图 9-2 所 示 的 函数 调用 流程 。 岁 
10-225 E Y — 3S TUI AS SR FEF o 


sctp/scteservül.c 


1 include “unp.h" 

2 int 

3 nain!in-z arge, char t*argy) 

4{ 

5 int so-k fd, mag flags; 

Li char resdtuf [SUFFSIZE]:; 

了 Struct sockaddr in sarvaddr, cliaddr; 

8 Struct sctp snircvinfo sri; 

9 siran senp event subscr ibe eunts; 
10 iat stream -ncrement-1: 
11 gccxlen t len; 
12 9320-5 zd sz; 
13 if (argc == 2} 
lė stream -ncremwent = stoi targy [1]}; 
15 scek td - Socket (AF INET, SOCK SEZPACKET, IPPROTO SCTP); 
16 bzerol&servacdr, sizeof!serzva3dr!); 
17 servadd-.sin family = AP INET; 
18 servadd-.sin acdr.s addr = htonl[IMADDR ANY) ; 
19 sarvaddrz.sin port = atons{SERV FORT); 
20 Bind:sock fd, (SA +) &servaddr, sizcot'3Scrvaddr;); 
21 bzero(&evnts, sizeofí(ewn-s!); 
22 eunts.sctp data io event = 1; 
23 Satsockopriscck fd, IPPROTO SCTP, SCT? ZVENTS. uevnts, sizeof (evnts)); 
24 Listenisock fd, LISTzNQ); 
25 feed nd) 
26 ler = s-:zecf(s-ruct sockaddr_int ; 
a7 rd g2 = Scrp recvmez(sock fd, readbuf, sizeof |readbuf), 
z (SA *j&cliaddr, &ler, &3ri, &msg_flags) ; 
29 i= [stream increment!) 
30 sri sis fst revamee : 
31 i= [sri.sinfo strsam >- 
32 Sctp get no strusísocx £d. (SA *)&cliadd-, lenl] 
33 sri.sinfo stream = 2; 
36 ) 
35 Sctp sandmsg(sock fa. readbut, rd ez, 
26 (SA *)&clia3dr, len, 
3? ari.sinfo_ppid, 
38 sri.sinfo flacs, sri.sinfo stream, 0, 0): 
ay } 
40 | 


sctp/sctpservül.c 


图 10-2 ”SCTP 流 分 回 射 服务 器 程序 


设置 流 号 增长 选项 


13-14 ”默认 情况 下 服务 器 啊 应 所 用 的 流 号 是 在 其 上 接收 消 恩 的 流 
写 加 1。 如 果 通 过 命令 行 传递 一 个 整数 参数 ， 那 么 服务 器 将 把 该 参数 解 
释 成 stream_increment 的 值 。 也 就 是 说 该 参数 决定 是 否 增 长 外 来 消 恩 的 
流 号 。 我 们 将 在 10.5 节 讨论 头 端 阻塞 时 使 用 这 个 选项 。 
创建 一 个 SCTP 套 接 字 

15 创建 一 个 SCTP 一 到 多 式 套 接 字 。 
捆绑 一 个 地 址 

16-20 在 待 捆绑 到 该 套 接 字 的 网 际 网 套 接 字 地 址 结构 中 填 入 通 配 
地 址 〈INADDR_ANY) 和 服务 器 的 众所周知 端口 CsERv. PoRTO 。 捆 绑 通 配 
地 址 是 在 告知 系统 : 本 SCTP 端 点 将 在 建立 的 任何 关联 中 使 用 所 有 可 用 
的 本 地 地 址 。 对 于 多 宿主 机 而 言 ， 这 种 捆绑 意味 着 一 个 远程 端点 能 够 与 
这 个 本 地 主机 任何 一 个 可 路 由 地 址 建立 关联 并 发 送 分 组 。 我 们 对 于 
SCTP 端 口号 的 选择 基于 图 2-10。5.2 节 的 例子 中 束 端 口号 的 考虑 同样 适 
用 于 本 例子 。 
预订 感 兴趣 的 通知 

21-23 ”服务 器 修改 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 它 仅仅 预 
订 sctp_data_io_event， 从 而 允许 服务 器 查看 sctp_sndrcvinfo 结 构 。 服 
务 髓 可 从 该 结构 确定 消息 到 达 所 在 的 流 号 。 
开启 外 来 关联 


24 ”服务 器 以 listen 调 用 开局 外 来 关联。 随后 控制 进入 主 处 理 御 


pa 
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26-28 ”服务 器 初始 化 客户 套 接 字 地 址 结构 的 大 小 ， 然 后 阻塞 在 等 
待 来自 任何 一 个 远程 对 端的 消息 之 上 。 


35 m Set Ss 

29-34  IM4—^MiB SAN. MRi rA stream incrementi eE 
以 确定 是 人 否 需要 增长 流 号 。 如 果 设 置 了 该 标志 《没有 通过 命令 行 传递 参 
数 或 所 传递 命令 行 参数 不 为 0) ， 服 务 器 驶 把 消息 的 流 号 增 1。 如 果 流 号 
增长 到 大 于 等 于 最 大 流 号 〈 通 过 调用 内 部 函数 sctp_get_no_strms 获 
取 ) ， 服 务 器 就 把 流 号 重 置 为 0。sctp_get_no_strms 了 水 数 没 有 给 出 ， 它 
使 用 7.10 节 讨论 的 scTP_sTATUS 套 接 字 选项 找 出 商定 的 流 数 目 。 


发 送 回 啊 应 

35-38 ”服务 器 使 用 来 自 sri 结 构 的 净 便 协议 DD、 标 志 以 及 可 能 改动 
WAS AK YA A 

注意 ， 本 服务 器 不 希望 得 到 关联 通知 ， 因 此 禁止 了 会 回 上 传递 消息 
SIE Beg dE [X 的 所 有 事件 o 本 服务 器 依赖 于 sctp_snd rcvinfo 结 构 中 的 
信息 和 cliaddr 中 返回 的 地 址 定位 对 端的 关联 地 址 并 返 送 回 射 消 息 。 


本 程序 一 直 运 行 到 用 户 以 外 部 信号 杀 灭 服务 器 进程 为 止 。 


10(3 SCTP 一 到 多 式 流 分 回 射 客 户 程 
Fr: main žk 
图 10-3 所 示 为 SCTP 客 户 程序 的 main 函 数 。 


sctp/sctpeliemmtül.c 





+ éincluie " ur. p. h" 


2 int 
3 mainiint argc, char **aray) 
44 
5 int sack fä; 
6 struct sockacdr in searvaddr; 
7 strucz sc-p cvcnt Suczscribc evnts; 
8 iat ecko to all-5; 
9 if (argc < 2) 
10 crr quit("M-5sinq host zresumcat - usc '%s host [echo '\n", orav[O]l): 
E if (arge > 2) { 
12 prints ("Ecnoing messases to all streamo\n"); 
13 echo to all = 1; 
14 } 
15 Scck Ed = Socket(AF INST, SOCK SECPACKXET, IPPRITO_SCTP) ; 
16 bzero(&kservacdr, sizeof !servaddr) ) ; 
17 servaddr.sin fsmi.y = AP INDT; 
1^ se rvadd. sin adde s dàr = hiunl [TM5DTR ZNY;,; 
19 S2rvaddr.sin port = ntona!SERV PORT) ; 
30 Tael _ Eton (RF TNET, argv[1], servadi sin add: ): 
x bzero(&kevnte, sizeof (evnzs!): 
2 evnts.sctp data io event = 1; 
23 Sstsockop-isock fd,IFPROTO SCTP, SCIP EVENTS, sevnts, zizeof(evnts;,); 
if (echo co ell == 0) 
25 sctpstr cliístdin, sock fd, (Sh *)&ssrvaddr, sizeof(servaddr)!; 
z elas 
27 set pstr £1 i ecuoall (atdin, sock fd, (SA*)&servaddr, 
sizcot |ocrvaddr! ) : 
29 Close (sack 7^6; 
20 return!0); 
3 


solpGelpclientO1.c 





图 10-3 SCTP 流 分 回 射 客户 程序 main 函 数 
验证 参数 并 创建 一 个 套 接 字 


9-15 ”客户 验证 传递 给 它 的 参数 : 调用 者 必须 提供 消息 发 送 到 的 主 
机 ， 并 可 以 启用 “ 回 射 到 全 部 (echo to all) ”选项 〈 见 10.5 节 ) 。 客 户 然 
后 创建 一 个 SCTP 一 到 多 式 套 接 字 。 





设置 服务 器 地 址 

16-20 客户 使 用 inet_pton 函 数 把 通过 命令 行 传递 的 服务 器 地 址 从 
表达 格式 转换 成 数值 格式 。 它 与 服务 器 的 众所周知 端口 号 组 合成 的 地 址 
就 是 请 求 的 目的 地 。 
预订 感 兴趣 的 通知 

21-23 ”客户 显 式 设置 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 与 服务 
嚣 一样 ， 客 户 也 不 希望 得 到 MSsG_NOTIFICATION 事 件 ， 因 此 要 禁止 这 些 事 
件 通 知 ， 而 仅仅 开启 sctp_sndrcvinfo 结 构 的 接收 。 
调用 回 射 处 理 函 数 

24-28 ”如 果 没 有 设置 echo_to_all 标 志 ， 客 户 就 调用 将 在 10.4 节 讨 
论 的 sctpstr_cli 函 数 ， 人 否则 调用 将 在 10.5 节 讨论 的 sctpstr_cLi_echoal1 
函数 。 

290 

结束 处 理 

29-31 从 回 射 处 理 函 数 返 回 之 后 ， 客 户 关 闭 其 SCTP 套 接 字 ， 从 而 
终止 使 用 该 套 接 字 的 任何 SCTP 关 联 。 客 户 随 后 从 main 函 数 返回 值 为 0 的 
代码 ， 表 明 本 程序 的 运行 是 成 功 的 。 
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10.4 SCTP 流 分 回 射 客 户 程 
FF: sctpstr clirW2W 
图 10-4 所 示 为 默认 的 SCTP 客 户 处 理 函 数 。 


scipiscip. steeli.c 





1 £incluce "uup.lh* 
2 void 
3 octpctr C.i1/FILE *fp. irt ScCc« Ed, struct cockaddr *to, sockicn_t tclen! 
ai 
5 sturt  sockardr in peeraddr; 
€ etruct 3c-p sndrcvinfo eri; 
7 char 3endline[|MAXLINE., recvline IMAXLINB] ; 
& socklern L len; 
9 int cur sz,rd sz: 
19 int req tlago; 
11 bzera(Gsri,sizeofisri)!; 
12 while (fzers(sendline, MAXLINF, fp) !s NULL] | 
L3 if :sendline[O] l= '[*) 4 
14 rintf ("Ervor, line must be of the form '|stzcamnun]tcoxt'in"); 
15 continue: 
16 } 
17 zri.cinfo Stream = ztrtcl(&eenzlins[1],NULL,9): 
16 cut sz = strlen(ssniline); 
19 Sctp sendmsr(so-k fd, sendline, out sz, 
20 to, tolen, 0, 0, exi.cinfo stream, 0, C}; 
2 len = sizcot (pecraddr) ; 
22 rd sz = S3ctp re-vusg[sock fd, recvline, sizecf(recvlire), 
3 (SA *)apeeradir, &len, &sri. ms flags); 
24 erinct ("srom etr:td seq:$d (accoc:Cxéx):", 
25 sri.sinic_stream, ari.sinfo ssn, (u int!sri.sirfc assoc id!; 
A printf ("$. ts", 3 sz,recvline): 
27 } 
26 ) 


scipiscip steefi.c 


图 10-4 sctpst r clip ZW: 客户 处 理 循 环 
初始 化 sri 结 构 并 进入 循环 


11-12 客户 以 清 零 名 为 sri 的 sctp_sndrcvinfo 结 构 变 量 开 始 ， 随 后 
进入 一 个 循环 : 以 阻塞 式 fgets 调 用 从 由 调用 者 传 入 的 文件 指针 fp 中 读 
取 文 本 行 。main 函 数 传 入 本 函数 的 fp 是 stdin， 因 此 用 户 输入 在 本 循环 
中 一 直 被 恋 入 并 处 理 ， 直 到 用 户 键入 终端 EOF 字 符 〈Control-D) 。 用 户 
如 此 操作 将 结束 本 函数 ， 从 而 返回 到 调用 者 。 


验证 输入 


13-16 ”客户 检查 用 户 输入 符合 [所 text 格 式 。 知 不 符合 则 显示 一 个 
出 错 消 息 ， 然 后 再 次 进入 阻塞 式 fgets 调 用 所 在 的 循环 。 


转换 流 号 


17 客户 把 用 户 在 输入 中 请 求 的 流 号 转换 成 sri 结 构 的 sinfo_stream 
字段 。 


AE IB d 


18-20 ”初始 化 目的 地 址 结构 的 长 度 以 及 用 户 数 据 的 大 小 之 后 ， 客 
Fi Flsctp. sendmsgrK ZI RIAA s. s 


EH 3E TE TH I SEIS 

21-23. SP DH3E, SERE ERS ds AY In SE TES e e 

返回 的 消息 并 循环 

24-26 ”客户 显示 回 射 给 它 的 返回 消息 ， 包 括 流 号 、 流 序列 号 以 及 
^ coe 显示 所 回 射 的 消息 之 后 ， 客 户 循环 回去 获取 用 户 的 下 一 
运行 代码 


在 一 个 FreeBSD 主 机 上 不 带 命 令 行 参 数 启动 SCTP 回 射 服务 器 ， 然 后 
启动 其 客户 ， 客 户 的 命令 行 参数 仅仅 指出 服务 器 主机 的 地 址 。 


freebsd4% sctpclient01 .5 










































































[0]Hello 在 流 0 上 发 送 一 个 消息 

From str:1 seq:0 (assoc:0xc99e0):[0]Hello 服务 器 在 流 1 上 回 射 这 个 消息 

[4]Message two 在 流 4 上 发 送 一 个 消息 

From str:5 seq:0 (assoc:0xc99e0):[4]Message two 服务 器 在 流 5 上 回 射 这 个 消 ; 息 
[4]Message three 在 流 4 上 发 送 另 一 个 消息 

From str:5 seq:1 (assoc:0xc99e0):[4]Message three ”服务 器 在 流 5 上 回 射 这 个 消息 
^D <Ctrl+D> 是 我 们 的 EOF 字 符 

freebsd4% 














注意 ， 客 户 在 流 0 和 流 4 上 发 送 消 息 与 服务 圳 在 流 1 和 流 5 上 回 射 消 筷 


是 同时 发 生 的 。 对 于 不 带 命令 行 参数 的 SCTP 回 射 服务 器 来 说 ， 这 是 预 
期 的 行为 。 另 外 在 流 5 上 收 到 的 第 二 个 消息 对 应 的 流 序列 号 也 如 预期 地 
增 1 了 。 


10.5. IRA Aim DH 2E 


前 述 服 务 器 尽管 简单 却 提供 了 往 多 个 流 中 的 任何 一 个 流 发 送 文本 消 
息 的 一 个 方法 。SCTP 中 的 流 (stream) 不 同 于 TCP 中 的 字 节 流 ， 它 是 关 
联 内 部 具有 先后 顺序 的 一 个 消息 序列 。 这 种 以 流 本 身 而 不 是 以 流 所 在 关 
联 为 单位 进行 消息 排序 的 做 法 用 于 避免 仅 使 用 单个 TCP 字 节 流 导致 的 头 
端 阻塞 Chead-of-line blocking) 现象 。 
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头 端 阻 窄 友 生 在 一 个 TCP 分 节 丢 失 ， 导 致 其 后 续 分 节 不 按 序 到 达 接 
收 并 的 时 候 。 该 后 续 分 节 将 个 接收 端 一 直 保 持 到 第 一 个 分 向 被 发 送 端 重 
传 并 到 达 接 收 病 为止。 该 后 续 分 节 的 延迟 地 送 确保 接收 应 用 进程 能 够 按 
顺序 得 到 由 发 送 应 用 进程 发 送 的 数据 。 这 种 为 达到 完全 有 序 效果 而 引入 
的 延迟 非常 有 用 ， 不 过 也 有 不 利之 处 。 假 设 在 单个 TCP 连 接 上 发 送 语义 
LARSEN YE, POUR A a FY BG ACSI A E EY) SE Web dil al at ae 
zh. N f Epix J LI AR EP Be ESP AT BCR, IRA aE IS 
第 一 幅 图 像 的 一 个 断 片 ， 再 发 送 第 二 幅 图 像 的 一 个 断 片 ， 然 后 发 送 第 三 
幅 图 像 的 一 个 断 片 ;服务 器 重复 这 个 过 程 ， 直 到 这 3 幅 图 像 全 部 成 功 地 
发 送 到 浏览 器 为 止 。 要 是 承载 第 一 幅 图 像 茶 个 断 片 内 容 的 TCP 分 节 丢 失 
了 ， 将 会 发 生 什 么 呢 ? 客户 将 保持 已 不 按 序 到 达 的 所 有 数据 ， 直 到 丢失 
的 分 市 被 重 传 并 成 功 到 达 为 止 。 这 样 不 仅 延 绥 了 第 一 幅 图 像 数 据 的 北 
送 ， 也 延缓 了 第 二 幅 和 第 三 幅 图 像 数 据 的 递送 。 图 10-5 展 示 了 这 个 问 
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图 10-5 “在 单个 TCP 连 接 上 发 送 3 幅 图 像 


尽管 不 属于 HITP 的 工作 原理 ， 诸 如 SCP [Spero 1996 ] 和 
SMUX [Gettys and Nielsen 1998] 等 扩展 手段 已 被 提议 ， 它 们 能 够 在 
TCP 之 上 提供 类 似 的 并 行 功能 。 提 议 这 些 复 用 协议 旨 在 避免 由 多 个 不 共 
享 状态 的 并 行 TCP 连 接 造 成 的 有 害 行为 [Touch 1997]. ARIE 
像 创 建 一 个 TCP 连 接 (HTTP 客 户 通常 这 么 做 〉 避免 了 头 端 阻塞 问题 ， 
每 个 连接 却 不 得 不 独立 发 现 RTT 和 可 用 带宽 ;一 个 连接 上 的 分 节 丢 失 
(这 是 该 连接 所 在 路 径 上 存在 拥塞 的 一 个 信号 ) 无 法 必然 导致 其 他 连接 
减缓 传输 速率 。 这 将 导致 拥塞 网 络 上 较 低 的 整体 利用 率 。 


应 用 进程 并 不 希望 发 生 头 端 阻塞 。 理 想 情 况 下 ， 只 有 第 一 幅 图 像 的 
后 续 断 片 会 被 延缓 ， 而 按 顺序 到 达 的 第 二 幅 和 第 三 幅 图 像 的 各 个 断 片 将 
被 立即 递送 给 用 户 。 


SCTP 的 多 流 特性 能 够 尽 可 能 地 减少 头 端 阻 塞 。 图 10-6 展 示 了 同样 3 
幅 图 像 的 传送 过 程 。 这 回 服务 器 使 用 多 个 流 ， 使 得 头 端 阻 塞 仅仅 发 生 于 
期 望 的 地 方 ， 这 样 第 二 幅 和 第 三 幅 图 像 的 递送 不 再 受 第 一 幅 图 像 的 影 
响 ， 而 第 一 幅 图 像 部 分 接收 的 数据 将 保持 到 可 以 顺序 递送 为 上 上。 
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图 10-6 ”在 3 个 SCTP 流 上 发 送 3 幅 图 像 


图 10-7 给 出 了 SCTP 回 射 客户 程序 的 sctpstr_cli_echoall 消 数 ， 我 
们 用 它 展 示 SCTP 如 何 把 头 端 阻塞 减少 到 最 小 。 这 个 函数 类 似 早 先 的 
sctpstr_cli 国 数 ， 差 别 在 于 客户 不 再 需要 标准 输入 指出 每 个 文本 消息 
的 流 号 。 本 函数 将 把 用 户 输入 的 文本 消息 发 送 到 多 达 
SERV_MAX_SCTP_STRM 个 的 流 中 。 人 发 送 完 消 上 息 后 ， 客 户 等 待 来自 服务 器 的 
所 有 响应 的 到 达 。 在 运行 服务 器 程序 时 ， 我 们 传递 一 个 额外 的 命令 行 参 
数 ， 使 得 服务 器 在 接收 消息 的 同一 个 流 上 给 出 啊 应 。 这 么 一 来 用 户 就 能 
更 好 地 追踪 服务 器 发 送 的 啊 应 以 及 它们 到 达 客 户 的 顺序 。 











reipiscip_strcliecia.c 
1 includie "ur.p. h" 


2 f&Sefíne SCTP MOXLINE 800 


3 void 

4 sctpstr_cli_echoall [FILE *fp. irt socx fd, struct sockaddr “to, 
5 mlen L tollen! 

6/ à 

7 etracz cockacdr_in peeraddr; 

8 strat sctp snzrcvinfo sri: 

E] Car werdlise[SCT? MAXLINE], revline[SCT7P MAXLTWE]; 

10 sceklen t len; 

1i int rd oz, +, otros; 

12 int msg flags; 

13 bzero(sendlire, z-zecf(sendlire);; 

14 bzero(&eri, &:2ecf(sri!); 

15 waile {igets(sendline, SCTP MAXLCNE 9, tp; != NULL! { 

16 sLrsz = slrlen(sendline); 

17 1? (sendline[s-rsz-1] == '\n') [ 

18 gerdline[etrez-1) = ‘\0'; 

19 straz-- 

20 ) 

4l for (i - 0; 1 < SERV MAX SCT? STRN: i++) { 

e2 oncrintt (cendline | otroz, ciscot(serdlinc}) - otroz, 
23 *.msg. Sd", i); 

24 $ctp senümsg(sock fd, sendline, sizeof (ssndline). 
FI to, toler, 9, 0, íi, O0, 0); 

26 } 

27 for (i = 0; i < SERV_MAX_SCTP_STPM; i++) í 

28 ler = s-zeof (peeradür); 

29 rd ga = sctp recvneg sock fd, recvl-re, sizeof(recvline), 
30 (SA *)apeeraddr, &len, asri, &«sa flags); 
31 printf (sry str: td saq: (assac1rozxztx):", 

az sri.sinfo stream, sri.sinfo ssn, 

33 (uL inz)ori.scinfo aczeocc id): 

34 p-intfí(*&.*sin", rd sz, recvline): 

35 ) 

36 } 

37 


图 10-7 sctpstr_cli_echoall Á% 
初始 化 数据 结构 并 等 得 输入 
13-15 “客户 照样 初始 化 用 于 建立 各 个 流 的 sri 结 构 ， 客 户 的 数据 发 
送 和 接收 将 通过 这 些 流 进 行 。 客 户 还 清 零 用 于 收集 用 户 输入 的 数据 缓冲 
区 。 客 户 随后 同样 进入 阻塞 于 用 户 输 入 的 主 循 环 。 
TUA E TES E 


um da 客户 设置 消 妃 大 小 之 后 删除 缓冲 区 来 尾 的 换行 符 〈 如 果 有 
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21-26 客户 使 用 sctp_sendmsg 函 数 发 送 消息 ， 发 送 的 是 长 度 
为 scTP_MAXLINE 字 节 的 整个 缓冲 区 。 在 发 送 消息 之 前 ， 客 户 添加 上 字符 
串 “.msg.” 和 流 写 ， 这 样 我 们 就 能 观察 各 个 啊 应 消息 的 到 达 顺 序 ， 并 与 客 
户 发 送 请 求 消息 的 顺序 相 比 较 。 注 意 ， 客 户 只 是 把 消息 发 送 到 固定 数目 
的 流 中 ， 而 不 管 其 中 有 多 少 流 已 经 真正 建立 。 要 是 对 端 向 下 商定 流 的 数 
目 ， 那 么 客户 的 若干 个 消息 发 送 可 能 失败 。 


要 是 发 送 或 接收 窗口 过 小 ， 本 程序 就 有 失败 的 潜在 可 能 。 要 是 对 端 
的 接收 窗口 过 小 ， 客 户 有 可 能 被 阻塞 。 既 然 客户 在 完成 消息 发 送 之 前 不 
会 读 取 任 何 信息 ， 服 务 器 在 等 待 客 己 完成 读 取 已 经 送出 的 啊 应 期 间 也 可 
能 潜在 地 阻塞 。 这 种 情形 的 后 果 是 两 个 端点 发 生死 锁 。 本 程序 不 具备 可 
扩展 性 ， 意 图 只 是 以 简单 直观 的 方式 说 明 多 个 流 和 头 端 阻塞 的 关系 。 
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读 回 回 射 的 消 妃 并 显示 


27-35 客户 读 入 来 和 目 服务 器 的 所 有 啊 应 消息 ， 并 照样 显示 它们 。 
读 入 最 后 一 个 回 射 的 消 轧 后 ， 客 忆 循 环 回去 获取 用 户 的 下 一 个 输入 。 
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10.5.1 运行 代码 


我 们 在 两 个 不 同 的 FreeBSD 主 机 上 执行 客户 程序 和 服务 器 程序 。 这 
两 个 主机 由 一 个 可 配置 的 路 由 噩 分割 开 ， 如 图 10-8 所 示 。 路 由 器 能 够 配 
> 

行情 况 。 


















y 
服 秀 器 


应 用 过 程 


rhe QM 
"Hn 


必用 进程 





SCTP/IP 拷 的 
FrceBSD-svr 


SCTP/IP4 if. 
FreeBSD-lap 





———— 


F, 
ih res 


LANI 


图 10-8 SCTP 客 户 /服务 器 实验 环境 


我 们 以 一 个 额外 的 命令 行 参 数 “0? 启 动 服务 器 ， 迫 使 服务 器 不 增长 
应 答 所 用 的 流 号 。 


我 们 接着 启动 客户 ， 通 过 命令 行 传 入 回 射 服务 器 主机 的 地 址 和 一 个 
额外 的 参数 ， 使 得 客户 把 任何 消息 发 送 到 每 个 流 。 


freebsd4% sctpclient01 .1 echo 
Echoing messages to all streams 











Hello 

From str:0 seq:0 (assoc:0xc99e0) :Hello.msg.0O 
From str:1 seq:0 (assoc:0xc99e0) :Hello.msg.1 
From str:2 seq:0 (assoc:0xc99e0) :Hello.msg.2 
From str:3 seq:0 (assoc:0xc99e0) :Hello.msg.3 
From str:4 seq:0 (assoc:0xc99e0) :Hello.msg.4 
From str:5 seq:0 (assoc:0xc99e0) :Hello.msg.5 
From str:6 seq:0 (assoc:0xc99e0) :Hello.msg.6 
From str:7 seq:0 (assoc:0xc99e0) :Hello.msg.7 
From str:8 seq:0 (assoc:0xc99e0) :Hello.msg.8 
From str:9 seq:0 (assoc:0xc99e0) :Hello.msg.9 
^D 

freebsd4% 


在 没有 丢失 的 前 提 下 ， 客 户 看 到 啊 应 消息 按照 发 送 它们 的 顺序 到 
和 
新 启动 客户 。 


freebsd4% sctpclient01 .1 echo 
Echoing messages to all streams 


Hello 

From str:0 seq:0 (assoc:0xc99e0) :Hello.msg.0O 
From str:2 seq:0 (assoc:0xc99e0) :Hello.msg.2 
From str:3 seq:0 (assoc:0xc99e0) :Hello.msg.3 
From str:5 seq:0 (assoc:0xc99e0) :Hello.msg.5 
From str:1 seq:0 (assoc:0xc99e0) :Hello.msg.1 
From str:8 seq:0 (assoc:0xc99e0) :Hello.msg.8 
From str:4 seq:0 (assoc:0xc99e0) :Hello.msg.4 


From str:7 seq:0 (assoc:0xc99e0) :Hello.msg.7 
From str:9 seq:0 (assoc:0xc99e0) :Hello.msg.9 
From str:6 seq:0 (assoc:0xc99e0) :Hello.msg.6 
^D 

freebsd4% 
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让 客户 往 每 个 流 中 发 送 两 个 消息 ， 我 们 惑 能 验证 同一 个 流 内 的 消 奶 
因 重 新 排序 所 需 而 被 适当 地 保持 着。 我 们 还 把 客户 程序 改 为 增添 一 个 消 
县 序号 作为 消 思 后缀 ， 以 便 标 识 同一 个 流 内 的 两 个 消息 。 图 10-9 展 示 了 
改动 部 分 的 代码 。 


sctrisctpe. sircliechoz.c 





2* for (i =0 ; i e SERV MAX SCTP STRM; i++) | 

22 snprintt (sendline + strsz, sizeot(serdline) - strez, 
£3 *.mag.$d 1'. i); 

24 Sctp sendmsy(sock_ fd, sendline, sizeof (sendline). 
25 to, toler, 9, 3, d, 0, Gi; 

z6 snprintf(sendline + straz, sizeof(serdline! - atrsz, 
27 *.mag.td 2°, i); 

28 Sctp sendmsq(seck fd, sandline, sizeof (sendling). 
29 to, tolen. 0, J, i1, 0, C's 

50 } 

33 for (i = 0; Í < SERV MAX SCTP STRM * 2; i++) | 

42 ler = zi2cof(peorzddr): 


seipiscip sircliechoá.c 


图 10-9 sctpstr_cli 函 数 改 动 部 分 
添加 额外 的 消息 序号 并 发 送 


22-25 ”客户 添加 一 个 额外 的 消息 序号 1 以 帮助 追踪 待 发 送 的 消 乱 ， 
然后 使 用 sctp_sendmsg 函 数 把 消 因 发送 出去。 


WE BUI ISPS FRR BIS 


x 客户 把 消息 序号 从 1 改 为 2， 然 后 把 更 改 后 的 消息 发 送 到 同 
一 个 流 中 。 


iE [RH HB KAFFEE AN 


31 这儿 的 代码 只 需 略 加 改动 : FE RR ER EI 8L COS: i 
FYE LA i o 


10.5.2 ”运行 改动 过 的 代码 











我 们 像 先前 那样 执行 服务 器 程序 和 改动 过 的 客户 程序 ， 得 到 的 来 自 
客户 的 输出 如 下 。 


freebsd4% sctpclient01 .1 echo 
Echoing messages to all streams 


Hello 

From str:0 seq:0 (assoc:0xc99e0):Hello.msg.O 1 
From str:0 seq:1 (assoc:0xc99e0) :Hello.msg.O 2 
From str:1 seq:0 (assoc:0xc99e0):Hello.msg.1 1 
From str:4 seq:0 (assoc:0xc99e0):Hello.msg.4 1 
From str:5 seq:0 (assoc:0xc99e0):Hello.msg.5 1 
From str:7 seq:0 (assoc:0xc99e0):Hello.msg.7 1 
From str:8 seq:0 (assoc:0xc99e0) :Hello.msg.8 1 
From str:9 seq:0 (assoc:0xc99e0):Hello.msg.9 1 
From str:3 seq:0 (assoc:0xc99e0):Hello.msg.3 1 
From str:3 seq:1 (assoc:0xc99e0) :Hello.msg.3 2 
From str:1 seq:1 (assoc:0xc99e0) :Hello.msg.1 2 
From str:5 seq:1 (assoc:0xc99e0) :Hello.msg.5 2 
From str:2 seq:0 (assoc:0xc99e0):Hello.msg.2 1 
From str:6 seq:0 (assoc:0xc99e0):Hello.msg.6 1 
From str:6 seq:1 (assoc:0xc99e0) :Hello.msg.6 2 
From str:2 seq:1 (assoc:0xc99e0) :Hello.msg.2 2 
From str:7 seq:1 (assoc:0xc99e0) :Hello.msg.7 2 
From str:8 seq:1 (assoc:0xc99e0) :Hello.msg.8 2 
From str:9 seq:1 (assoc:0xc99e0) :Hello.msg.9 2 
From str:4 seq:1 (assoc:0xc99e0) :Hello.msg.4 2 
^D 

freebsd4% 
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从 中 可 以 看 出 ， 消 息 存 在 丢失 现象 ， 不 过 只 有 同一 个 流 内 的 消 妃 才 
因此 延缓 ， 其 他 流 中 的 消息 不 受 影响 。SCITP 流 可 以 次 是 一 个 既 能 避免 
头 端 阻 豆 又 能 在 相关 的 消息 之 间 保 持 顺 序 的 有 效 机 制 。 


10.6 ”控制 法 的 数目 


我 们 已 经 查看 了 如 何 使 用 SCTP 流 ， 另 一 个 问题 是 关联 初始 化 阶段 
如 何 控制 一 个 端点 请 求 的 流 数 目 。 我 们 早先 的 例子 使 用 的 是 外 出 流 数目 
的 系统 默认 值 。 对 于 FreeBSD 上 SCTP 的 KAME 实 现 而 言 ， 这 个 默认 值 是 
10。 如 果 客 户 和 服务 器 想 要 使 用 多 于 10 个 的 流 情况 又 如 何 呢 ? 在 图 10- 
10 中 ， 我 们 把 服务 器 程序 改 为 允许 在 关联 启动 阶段 增长 端点 请 求 的 流 数 
目 。 注 意 ， 这 个 变动 必须 针对 尚未 建立 关联 的 套 接 字 进行 。 





Sctp/sctpservüz,c 


14 i= (argc -- 2) 

15 strean inc-ement = atci(argv[1] 

1€ MU AR =» docket (Ar_INET, SoOCK_ SEOPACKET, IPPRCCO SCIT! ; 

17 bzer2í(&- ,Sizeofiinitm); 

1&6 initm.s:rit num os-reams = SERV MORE STRMS SCTE; 

19 Setcockopt(seoc« fd, LPPROTO SULTS, SCIP_INLIMEG, Sinitm, sizeof (initt)); 


scip/sctpservüz.c 


图 10-10 ”服务 器 程序 请 求 更 多 流 的 改动 部 分 








初始 设置 

14-16 ”服务 咒 照 样 根 据 额外 的 命令 行 参数 设置 标志 并 打开 套 接 
Ta 
修改 流 数目 请 求 


17-19 这 几 行 含有 增加 到 服务 器 程序 中 的 新 代码 。 服 务 器 首先 清 
零 sctp_initmsg 结 构 ， 以 确保 setsockopt 调 用 不 会 无 意 中 改动 任 何其 他 
值 。 服 务 器 接着 把 sinit_max_ostreams 字 段 设 置 成 期 望 请 求 的 流 数目 ， 
然后 以 初始 消息 参数 设置 僚 接 字 选 项 。 
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设置 套 接 字 选 项 的 尺 一 种 方法 是 : 使 用 sendmsg 函 数 并 提供 辅助 数 
据 以 请 求 不 同 于 默认 设置 的 流 参 数 。 这 种 类 型 的 辅助 数据 仅仅 适用 于 一 
到 多 式 套 楼 字 。 











10.7 ”控制 终结 


在 早先 的 例子 中 ， 我 们 依赖 于 客户 关闭 套 接 字 来 终止 关联 。 然 而 客 
户 可 能 并 不 总 是 愿意 关闭 套 接 字 。 服 务 器 也 可 能 不 愿意 在 发 送 了 应 答 消 
奶 之 后 继续 保持 关联 开放 。 这 种 情况 下 ， 我 们 需要 答 看 终止 一 个 关联 的 
另外 两 个 机 制 。 对 于 一 到 多 式 接口 ， 这 两 个 可 能 的 方法 都 可 用 : 其 中 一 
个 是 雅致 的 ， 另 一 个 则 是 破坏 性 的 。 


如 果 服 务 器 希望 在 发 送 完 一 个 应 答 消 息 后 终止 一 个 关联 ， 那 么 可 以 
在 与 该 消息 对 应 的 sctp_sndrcvinfo 结 构 的 sinfo_flags 字 段 中 设 
置 MsG_EoF 标 志 。 该 标志 迫使 所 发 送 消息 被 客户 确认 之 后 ， 相 应 关联 也 
被 终止 。 另 一 个 方法 是 把 MsG_ABORT 标 志 应 用 于 sinfo_flags 字 段 。 该 标 
志 将 以 ABORT 块 迫使 立即 终止 关联 。SCTP 的 ABORT 块 类 似 TCP 的 RST 
分 节 ， 能 够 无 延迟 地 中 止 任何 关联 ， 尚 未 发 送 的 任何 数据 都 被 丢弃 。 然 
而 以 ABORT 氛 关闭 一 个 SCTP 会 话 并 没有 诸如 防止 TCP 的 TIME_WAIT 状 
态 之 类 的 不 良 影响 ，ABORT 块 导致 的 是 “优雅 的 ”中 止 性 关闭 。 图 10-11 
给 出 的 是 回 射 服务 器 程序 的 改动 部 分 ， 用 于 在 送出 响应 消息 的 同时 激活 
优雅 的 关联 终止 。 图 10-12 给 出 的 是 回 射 客户 程序 的 改动 部 分 ， 用 于 在 
关闭 套 接 字 之 前 发 送 一 个 ABORT 块 。 

















sctp/sctoser3.c 





25 for pi 4 

26 ler ~ s-zecf(s-ruct sockaddr in); 
rd ez = Scrp recvmeq(zock fd, readbuf, elzeot!readbut), 

28 (SA *1&cliaddr, &ler. &sri, &msg flags); 
A- (st rem ZINC ) ! = 

30 sri.sinfc streames: 

i 1 [cri.cinfo setrcam >= 

32 Sctp get no stzms(scck Ed. (SA *)&zliaddr, len!) 

33 sri.sinfc stream = 3 

34 ) 

25 Sctp_cenamoq(sock_td, rcadbut, rd oz, 

36 SR *'&clisdzr, len, 

a? sri.sint»5 ppid, 

38 /sri.sínfo flags | MSG BOF], sri.sinfo stream, 0, 2); 

39 


scip/sctpservü3.c 


图 10-11 服务 器 程序 应 答 同 时 终止 关联 的 改动 部 分 





sctp^rcptzlientüz.c 





28 iE (eects to all == 0) 

46 sctpstr cli;stdin, sock fd, (SA *)&servacdr, sizeof (servad3dr)!; 

av else 

28 sctpstr -li echnallistdin, sock fd, (SA *!|&servadd-, 

39 sízsof[servaddár!): 

30 otrcpy|bycmoc, "aood2yc"!; 

31 Scta sendmnegí(sock fd, hyemsg, strlen {hyemsg!, 

32 |SA Yiaservatdr, sizeofiservaddr), J, NSG ABORT, 0, O, QI; 
a3 Clo3ec(oock Ci7 


solpselpclient0z.c 








图 10-12 ”客户 程序 预先 中 止 关 联 的 改动 部 分 
发 送 回 啊 应 ， 同 时 终止 关联 


38 本 行 的 改动 仅仅 是 给 sctp_sendmsg 函 数 的 标志 参数 或 上 MsG_EOF 
标志 。 该 标志 促成 服务 器 在 应 答 消息 被 客户 成 功 确认 之 后 关闭 关联 。 
ABI BE Bl PIEREK 


30-32 ”客户 准备 一 个 消息 作为 关联 中 目的 用 户 错 误 起 因 ， 然 后 以 
MSG_ABORT 标 志 调 用 sctp_sendmsg 函 数 。 该 标志 导致 发 送 一 个 ABORT 
块 ， 从 而 立即 终止 当前 关联 。 这 个 ABORT 块 包含 用 户 发 起 错误 起 因 代 
人 码 ， 其 上 层 原因 字段 中 的 消息 为 “goodbye”。 


TRAE BF HH IR FT 


33 即使 关联 已 经 中 止 ， 我 们 仍 得 关闭 套 接 字 描 述 符 以 释放 与 之 关 
联 的 系统 资源 。 




















10.8 ”小 结 


我 们 查看 了 约 为 150 行 代码 的 简单 SCTP 客 户 和 服务 器 程序 。 这 两 个 
程序 都 使 用 一 到 多 式 SCTP 接 口 。 服 务 器 程序 按照 迭代 式样 构造 ， 这 也 
是 使 用 一 到 多 式 接口 时 的 常用 式样 。 服 务 器 接收 每 个 请 求 消息 之 后 ， 应 
答 消 息 或 者 发 送 到 请 求 消息 到 来 的 流 上 ， 或 者 发 送 到 编号 稍 高 的 流 上 。 
我 们 接着 查看 了 头 端 阻塞 问题 。 通 过 修改 客户 程序 强调 本 问题 ， 我 们 表 
明 SCTP 流 可 用 于 避免 这 个 问题 。 我 们 使 用 众多 可 用 于 控制 SCTP 行 为 的 
套 接 字 选 项 之 一 查看 了 如 何 操纵 流 的 数目 。 最 后 ， 我 们 再 次 修改 服务 器 
和 客户 程序 ， 使 得 它们 或 能 中 止 一 个 关联 (并 包含 一 个 用 户 上 层 原因 代 
或 能 (对 于 我 们 的 服务 器 情形 〉 在 发 送 一 个 消息 之 后 优雅 地 终止 
关联 
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我 们 将 在 第 23 章 深入 探讨 SCTP。 


习题 


10.1 在 图 10-4 所 示 的 客户 程序 中 ， 如 果 SCTP 返 回 错误 ， 将 会 发 生 
什么 ? 如 何 改正 程序 以 解决 这 个 问题 呢 ? 


10.2 ”如 果 我 们 的 服务 器 在 给 出 啊 应 之 前 退出 ， 将 会 及 生 什 么 ? 有 
什么 办 法 能 够 让 客户 知晓 这 种 情况 呢 ? 


10.3 在 图 10-7 的 第 22 行 ， 我 们 把 out_sz 设 置 成 800 字 节 。 你 认为 我 
人 
变量 吗 ? 


10.4 Nagle&E (7.10 5) 对 于 图 10-7 所 示 的 客户 程序 有 什么 影 
啊 ? 禁止 Nagle 算 法 有 助 于 本 程序 吗 ? 把 客户 和 服务 器 程序 改 为 都 禁 
Nagle 算 法 ， 再 构造 并 运行 它们 。 


10.5 ”在 10.6 节 我 们 指出 ， 应 用 进程 应 该 在 建立 关联 之 前 修改 流 的 
数目 。 如 果 应 用 进程 在 建立 关联 之 后 修改 流 的 数目 ， 将 会 发 生 什 么 ? 


10.6 在 讨论 修改 瀛 的 数目 时 我 们 指出 ， 一 到 多 式 套 接 字 是 唯一 可 
使 用 辅助 数据 以 请 求 更 多 流 的 式样 。 其 理由 是 什么 ? Gas: 辅助 数据 
必须 随 消息 一 道 发 送 。) 


10.7 ”为 什么 服务 器 可 以 不 追踪 上 自己 打开 的 关联 而 离开 昵 ? 不 追踪 
关联 存在 危险 吗 ? 


10.8 ”在 10.7 节 ， 我 们 把 服务 器 程序 改 为 在 应 答 每 个 消 恩 后 终止 相 
应 的 关联 。 这 么 做 会 导致 任何 问题 吗 ? 这 是 一 个 好 的 设计 决策 吗 ? 


302 























第 11 瘟 ”名 字 与 地 址 转换 


11.1 概述 


到 目前 为 止 ， 本 书 中 所 有 例子 都 用 数值 地 址 来 表示 主机 《如 
206.6.226.33) ， 用 数值 端口 写 来 标识 服务 器 (例如 端口 13 代 表 标 准 的 
daytime 服 务 器 ， 端 口 9877 代 表 我 们 的 回 射 服 务 器 ) 。 然 而 出 于 许多 理 
由 ， 我 们 应 该 使 用 名 字 而 不 是 数值 : 名 字 比 较 容 易 记 住 ， 数值 地 址 可 以 
变动 而 名 字 保 持 不 变 ， 随 着 往 IPv6 上 转移 ， 数 值 地 址 变 得 相当 长 ， 手 工 
键入 数值 地 址 更 易 出 错 。 本 章 讲 述 在 名 字 和 数值 地 址 间 进 行 转换 的 函 
数 : gethostbyname 和 gethostbyaddr 在 主机 名 字 与 IPv4 地 址 之 间 进 行 转 
换 ，getservbyname 和 getservbyport 在 服务 名 字 和 端口 号 之 间 进 行 转 
换 。 本 章 还 讲述 两 个 协议 无 关 的 转换 函数 : getaddrinfo 和 
getnameinfo， 分 别 用 于 主机 名 字 和 了 PP 地址 之 间 以 及 服务 名 字 和 端口 号 之 
间 的 转换 。 





11.2 域名 系统 


域名 系统 (Domain Name System, DNS) 主要 用 于 主机 名 字 与 IP 地 
址 之 间 的 映射 。 主 机 名 既 可 以 是 一 个 简单 名 字 (simple name) ， 例 如 
solaris 或 bsdi， 也 可 以 是 一 个 全 限定 域名 (Fully Qualified Domain 
Name, FQDN) ， 例 如 solaris,.unpbook.com。 


严格 说 来 ，FQDN 也 称 为 绝对 名 字 Cabsolute name) ， 而 且 必 须 以 
一 个 点 号 结尾 ， 不 过 用 户 们 往往 省 略 结尾 的 点 号 。 这 个 点 号 告知 DNS 解 
析 右 该 名 字 是 全 限定 的 ， 从 而 不 必 搜 索 解 析 器 目 己 维护 的 可 能 域名 列 
Ro 
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我 们 在 本 节 仅 仅 讨 论 网 络 编程 所 需 的 DNS 基础 知识 。 对 于 更 多 细节 
感 兴 趣 的 读者 可 参阅 TCPv1 的 第 14 半 和 [Albitz and Liu 2001] 。IPv6 所 
要 求 的 附加 内 容 出 自 RFC 1886 [Thomson and Huitema 1995] 和 RFC 
3152 [Bush 2001] 。 


11.2.17: J8 ido 


DNS 中 的 条 目 称 为 资源 记录 (resource record, RR) 。 我 们 感 兴 趣 
的 RR 类 型 只 有 若干 个 。 


A A 记 录 把 一 个 主机 名 映射 成 一 个 32 位 的 IPv4 地 址 。 举 例 来 说 ， 以 
下 是 unpbook.com 域 中 关于 主机 freebsd 的 4 个 DNS 记录 ， 其 中 第 一 个 是 一 
FAWR: 


freebsd IN A 12.106.32.254 
IN AAAA 3ffe:b80:8d:1:a00:20ff:fea7:686b 
IN MX 5 freebsd.unpbook.com. 
IN MX 10 mailhost.unpbook.com. 


AAA PRA“VUA” (quad A) 记录 的 AAAA 记 录 把 一 个 主机 名 映射 
成 一 个 128 位 的 IPv6 地 址 。 选 择 “ 四 A” 这 个 称呼 是 由 于 128 位 地 址 是 32 位 
地 址 的 四 倍 。 


PTR ” 称 为 “指针 记录 ”(pointer record) 的 PTR 记 录 把 IP 地 址 映射 成 
主机 名 。 对 于 IPv4 地 址 ，32 位 地 址 的 4 个 字 节 先 反 转 顺序 ， 每 个 字 节 都 
转换 成 各 自 的 十 进 制 ASCII 值 (O~255) 后 ， 再 添上 in-addr.arpa， 结 
果 字 符 串 用 于 PTR 查 询 。 

对 于 IPV6 地 址 ，128 位 地 址 中 的 32 个 四 位 组 先 反 转 顺序 ， 每 个 四 位 组 都 
被 转换 成 相应 的 十 六 进 制 ASCII 值 (0—9, a~f) 后 ， 再 添 

上 ip6.arpa。 

举例 来 说 ， 上 例 中 主机 freebsd 的 两 个 PTR 记 录 分 别 

是 254.32.106.12.in- addr .arpa 和 
b..7.a.e.f.f.f.0.2.0.0.a.0.1.0.0.0.d.8.f.1.0.8. 
b.0.e.f.f.3.ip6.arpa. 


早期 标准 指定 在 ip6.int 域 中 反 向 查找 IPv6 地 址 。IPv6 的 反 向 查找 域 
现 已 改 为 ip6.arpa， 以 与 IJPv4 保 持 一 致 。 这 两 个 域 之 间 存 在 一 个 过 湾 
期 ， 期 间 两 者 都 可 以 使 用 。 


MX MX 记录 把 一 个 主机 指定 作为 给 定 主 机 的 “邮件 交换 器 ”(mail 
exchanger) 。 上 例 中 主机 freebsd 有 2 个 MX 记录 : 第 一 个 的 优先 级 值 为 
5， 第 二 个 的 优先 级 值 为 10。 当 存在 多 个 MX 记录 时 ， 它 们 按照 优先 级 顺 
序 使 用 ， 值 越 小 优先 级 越 高 。 


本 书 不 用 MX 记录 ， 我 们 提 及 这 种 类 型 RR 是 因为 它们 在 现实 世界 中 
应 用 相当 广泛 。 
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CNAME _ CNAME 人 代表“canonical name”( 规 范 名 字 ) ， 它 的 常见 用 法 
是 为 常用 的 服务 (例如 ftp 和 www) 指派 CNAME 记 录 。 如 果 人 们 使 用 这 
些 服 务 名 而 不 是 真实 的 主机 名 ， 那 么 相应 的 服务 挪 到 另 一 个 主机 时 他 们 
也 不 必 知 道 。 举 例 来 说 ， 我 们 名 为 linux 的 主机 有 以 下 2 个 CNAME 记 
录 : 


ftp IN CNAME linux.unpbook.com. 
WWW IN CNAME linux.unpbook.com. 


目前 处 于 IPv6 部 署 的 极 早 期 ， 系 统管 理 员 们 会 给 同时 支持 IPv4 和 
IPv6 的 主机 使 用 什么 样 的 命名 约定 尚 不 清楚 。 在 本 节 前 面 的 例子 中 ， 我 
们 给 主机 freebsd 同 时 指定 了 A 记录 和 AAAA 记 录 。 一 种 可 能 的 约定 是 : 


把 A 记 录 和 AAAA 记 录 都 置 于 主机 的 通常 名 字 之 下 〈 如 前 所 示 ) ， 再 创 
建 另 一 个 名 字 以 -4 结尾 、 含 有 A 记 录 的 RR， 另 一 个 名 字 以 -6 结尾 、 含 有 
AAAA 记 录 的 RR， 以 及 另 一 个 名 字 以 -611 结 尾 、 含 有 AAAA 记 录 及 主机 
的 链 路 局 部 地 址 的 RR〈 这 个 RR 有 时 便于 调试 ) 。 以 下 是 我 们 另 一 个 主 
机 的 所 有 这 些 记录 : 


aix IN A 192.168.42.2 
IN AAAA 3ffe:b80:1f8d:2:204:acff:fe17:bf38 
IN MX 5 aix.unpbook.com. 
IN MX 10 mailhost.unpbook.com. 
aix-4 IN A 192.168.42.2 
aix-6 IN AAAA 3ffe:b80:1f8d:2:204:acff:fe17:bf38 
aix-611 IN AAAA fe80::204:acff :fe17:bf 38 


_ 这 种 约定 给 予 我 们 额外 的 应 用 程序 协议 选择 控制 权 ， 有 其 体 讨 论 见 下 


11.2.2 解析 器 和 名 字 服 务 器 


每 个 组 织 机 构 往往 运行 一 个 或 多 个 名 字 服 务 嚣 (name server) , € 
们 通常 就 是 所 谓 的 BIND (Berkeley Internet Name Domain 的 简称 ) FE 
序 。 诸 如 我 们 在 本 书 中 编写 的 客户 和 服务 器 等 应 用 程序 通过 调用 称 为 解 
Hrs (resolver) 的 函数 库 中 的 函数 接触 DNS 服务 髓 。 第 见 的 解析 器 函 
数 是 将 在 本 章 讲 解 的 gethostbyname 和 gethostbyaddr， 前 者 把 主机 名 映 
射 成 ITPv4 地 址 ， 后 者 则 执行 相反 的 映射 。 


图 11-1 展 示 了 应 用 进程 、 解 析 堪 和 名 字 服 务 器 之 间 的 一 个 典型 天 
系 。 现 在 考虑 编写 应 用 程序 代码 。 解 析 器 代码 通常 包含 在 一 个 系统 函数 
库 中 ， 在 构造 应 用 程序 时 被 链 编 (link-editing〉 到 应 用 程序 中 。 另 有 些 
系统 提供 一 个 由 全 体 应 用 进程 共享 的 集中 式 解 析 费 守护 进程 ， 并 提供 向 
这 个 守护 进程 执行 RPC 的 系统 函数 库 代 码 。 不 论 哪 种 情况 ， 应 用 程序 代 
码 使 用 通常 的 函数 调用 来 执行 解析 器 中 的 代码 ， 调 用 的 典型 函数 


是 gethostbyname 和 gethostbyaddr。 





应 用 进程 


应 用 程序 


代码 





人 





UDPIN % 


sic hy 
( Wis) 
\ RRA YS 


图 11-1 客户 、 解 析 器 和 名 字 服 务 器 的 典型 关系 


解析 器 代码 通过 读 取 其 系统 相关 配置 文件 确定 本 组 织 机 构 的 名 字 服 
务 右 们 的 所 在 位 置 。 我 们 使 用 复数 “名 字 服 务 器 们 ”是 因为 大 多 数组 织 
机 构 运 行 多 个 名 字 服 务 器 ， 尺 管 我 们 在 图 中 只 展示 了 一 个 本 地 服务 器 。 
出 于 可 靠 和 元 余 的 目的 ， 必 须要 设置 多 个 名 字 服 务 器 。) X 
件 /etc/resolv.conf 通 常 包含 本 地 名 字 服 务 器 主机 的 IP 地 址 。 


既然 名 字 要 比 地 址 好 记 易 配 ， 要 是 能 够 在 /etc/resolv.conf 文 件 中 
也 使 用 名 字 服 务 器 主机 的 名 字 该 有 多 好 ， 然 而 这 样 做 会 引入 一 个 鸡 与 蛋 
的 问题 : 名 字 服 务 器 主机 上 自身 的 名 字 到 地 址 转换 由 谁 执行 呢 ? 


解析 器 使 用 UDP 向 本 地 名 字 服 务 器 发 出 查询 。 如 果 本 地 名 字 服 务 器 
不 知道 答案 ， 它 通常 就 会 使 用 UDP 在 整个 因特网 上 查询 其 他 名 字 服 务 
器 。 如 果 答 案 太 长 ， 超 出 了 UDP 消息 的 承载 能 力 ， 本 地 名 字 服 务 器 和 解 
析 器 会 自动 切换 到 TCP。 


11.2.3 ”DNS 替代 方法 


不 使 用 DNS 也 可 能 获取 名 字 和 地 址 信息 。 各 用 的 蔡 代 方法 有 静态 主 
机 文件 (通常 是 /etc/hosts 文 件 ， 如 图 11-21 所 示 〉 、 网 络 信息 系统 
(Network Information System, NIS) 以 及 轻 权 目录 访问 协议 
(Lightweight Directory Access Protocol, LDAP) >. PÆRE, RAE 
理 员 如 何 配 置 一 个 主机 以 使 用 不 同类 型 的 名 字 服 务 是 实现 相关 的 。 




















Solaris 2.x. HP-UX 10 及 后 续 版 本 、FreeBSD 5.x 及 后 续 版 本 使 用 文 
件 /etc/nsswitch.conf，AIX 使 用 文件 /etc/netsvc.conf。BIND 提供 了 
自己 的 名 为 信息 检索 服务 (Information Retrival Sevice, IRS) 的 版 本 ， 
使 用 文件 /etc/irs.conf。 如 果 使 用 名 字 服 务 器 查找 主机 名 ， 那 么 所 有 
这 些 系 统 都 使 用 文件 /etc/resolv.conf 指 定名 字 服 务 器 的 IP 地 址 。 广 运 
的 是 ， 这 些 差 异 对 于 应 用 程序 开发 人 员 来 说 通常 是 透明 的 ， 我 们 只 需 调 
用 诸如 gethostbyname 和 gethostbyaddr 这 样 的 解析 器 函数 。 
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11.3 gethostbyname Pf Zi 


认 知 计算 机 主机 通常 采用 直观 可 读 的 名 字 。 本 书 到 目前 为 止 的 所 有 
例子 都 有 意 使 用 IP 地 址 而 不 是 名 字 ， 这 样 我 们 能 够 确切 地 知道 ， 对 于 诸 
如 connect 和 sendto 这 样 的 函数 ， 进 入 套 接 字 地 址 结构 的 是 什么 内 容 ; 
对 于 诸如 accept 和 recvfrom 这 样 的 函数 ， 返 回 的 是 什么 内 容 。 然 而 大 多 
数 应 用 程序 应 该 处 理 名 字 而 不 是 地 址 。 当 我 们 往 IPv6 转 移 时 ， 这 一 点 变 
得 尤为 正确 ， 因 为 IPv6 地 址 〈 十 六 进 制 数 串 ) 比 IPv4 点 分 十 进 制 数 串 要 
长 得 多 。 (上 一 节 中 的 AAAA 记 录 例 子 和 ip6.arpa 域 PTR 记 录 例 子 足 以 
说 明 问 题 了 。) 


查找 主机 名 最 基本 的 函数 是 gethostbyname。 如 果 调 用 成 功 ， 它 就 
返回 一 个 指向 hostent 结 构 的 指针 ， 该 结构 中 含有 所 查找 主机 的 所 有 
IPv4 地 址 。 这 个 函数 的 局 限 是 只 能 返回 IPv4 地 址 ， 而 11.6 节 讲解 的 
getaddrinfo 函 数 能 够 同时 处 理 IPv4 地 址 和 IPv6 地 址 。POSIX 规 范 预警 可 
能 会 在 将 来 的 某 个 版 本 中 撤销 gethostbyname 函 数 。 


gethostbyname 函 数 不 大 可 能 真正 消失 ， 除 非 整 个 因特网 改 为 使 用 
IPv6， 那 可 能 是 在 遥遥 无 期 的 将 来 。 从 POSIX 规 范 中 撤销 该 函数 意 在 声 
ae BOAT BC CET WE AP HP OSC getaddrinfo% 














#include <netdb.h> 


struct hostent *gethostbyname(const char * hostname ); 





返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 设 
































h_errno 


本 函数 返回 的 非 空 指针 指 同 如 下 的 hostent 结 构 。 


struct hostent ( 

char *h name; /* official (canonical) name of host */ 

char **h aliases; /* pointer to array of pointers to alias names */ 
int h addrtype; /* host address type: AF INET */ 

int h length; /* length of address: 4 */ 

char **h addr list; /* ptr to array of ptrs with IPv4 addrs */ 

HN 


按照 DNS 的 说 法 ，gethostbyname 执 行 的 是 对 A 记录 的 查询 。 它 只 能 
返回 IPv4 地 址 。 


图 11-2 所 示 为 hostent 结 构 和 它 所 指向 的 各 种 信息 之 间 的 关系 ， 其 中 
假设 所 查询 的 主机 名 有 2 个 别名 和 3 个 IPv4 地 址 。 在 这 些 字段 中 ， Pree 


主机 的 正式 主机 名 (official host) 和 所 有 别名 Calias) Abe LAA FF SG 
尾 的 C 字 符 串 。 


hosatent{} 











EE 
n 42 





\ in_addr{} 
X -| IP 地 址 1 | 

in addr() 
TP ich? 












in addr 
IPH 


| h_length=4 








图 11-2 ”hostent 结 构 和 它 所 包含 的 信息 


返回 的 h_name 称 为 所 查询 主机 的 规范 〈canonical) 名 字 。 以 上 一 节 
的 CNAME 记 录 例 子 为 例 ， 主 机 ftp.unpbook.com 的 规范 名 字 
是 linux.unpbook.com。 男 外 ， 如 果 我 们 在 主机 aix 上 以 一 个 非 限定 主机 
名 (例如 solaris) 调用 gethostbyname， 那 么 作为 规范 名 字 返 回 的 是 它 
的 FQDN CHlsolaris.unpbook.com) 。 
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有 些 版 本 的 gethostbyname 国 数 实 现 允 许 hostname 人 参数 是 一 个 点 aT 
进 制 数 串 ， 也 就 是 如 下 格式 的 调用 是 可 行 的 : 


hptr = gethostbyname("192.168.42.2"); 


添加 如 此 处 理 hostname 参 数 的 代码 是 因为 Rlogin 客 户 只 接受 主机 
名 ， 并 以 它 为 参数 调用 gethostbyname， 而 不 接受 点 分 十 进 制 数 串 
[ Vixie 1996] 。POSIX 规 范 允 许 但 不 强求 如 此 处 理 hostname 参 数 ， 因 此 
考虑 可 移植 性 的 应 用 程序 不 能 依赖 这 个 特性 。 


gethostbyname 与 我 们 介绍 过 的 其 他 套 接 字 函数 的 不 同 之 处 在 于 : 
当 发 生 错 误 时 ， 它 不 设置 errno 变 量 ， 而 是 将 全 局 整数 变量 h_errno 设 置 
为 在 头 文件 <netdb.h> 中 定义 的 下 列 稼 值 之 一 : 





HOST. NOT. FOUND; 

TRY. AGAIN; 

NO. RECOVERY; 

NO DATA (AE [R]-T-NO ADDRESS) 。 


NO_DATA 错 误 表 示 指 定 的 名 字 有 效 ， 但 是 它 没有 A 记 录 。 只 有 MX 记 
录 的 主机 名 就 是 这 样 的 一 个 例子 。 


如 今 多 数 解析 器 提供 名 为 hstrerror 的 函数 ， 它 以 某 个 h_errno 值 作 


为 唯一 的 参数 ， 返 回 的 是 一 个 const char * 指 针 ， 指 向 相应 错误 的 说 
明 。 在 下 面 的 例子 中 ， 我 们 给 出 由 该 函数 返回 的 一 些 字符 串 例 子 。 


Bil 


图 11-3 给 出 一 个 简单 例子 ， 它 为 任意 数目 的 命令 行 参 数 调 
用 gethostbyname， 并 显示 返回 的 所 有 信息 。 
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mamesTrosteri.c 





1 #include "uup.h" 

2 int 

3 main(int args, char **aàrqw| 

4 | 

" char apir, **pplr: 

e char EZr[1NET ADDESIRLEN]; 

7 struct hostent  *hptr; 

& while (--arg- » 0) { 

9 ptr = *«e«arv; 

10 it | ihptzr = gethostbynama/ptr)) == NULL) Í 

11 err_msqi"gethostbyname erroz for host. $5. $s", 
12 ptr, hst.rerrar (^ er rua); 

13 continue; 

14 } 

15 printf ("official hostname: ts\n", bEptr-»3 name!; 
16 for (pptr = hptr-»h aliases; *pptr != NULL; pptr++) 
17 rcrintf("italias: s\n", vpptr;; 

18 switch (nptr >h addrtypc) | 

19 case A7 INET: 

20 ppor = hptr-»h addr lisr; 

21 for ( ; *ppt- l= NULL; pp-re, 

22 printf ("\taddress: ta\n", 

23 Inet ntopíktpzr-»h addrtype, ~pptr, str, sizeof(str))!; 
24 oreax; 

25 cetau.t: 

26 err rec '"unknowr adiress type"): 

27 Drea; 

28 } 

29 } 

30 exit(0); 

31 ] 


-aresiisten.v 








图 11-3 ”调用 gethostbyname 并 显示 返回 的 信息 
8~14 ”给 每 个 命令 行 参数 调用 gethostbyname。 
15-17 ”输出 规范 主机 名 ， 后 跟 别 名 列表 。 


18-24 ”pptr 指 问 一 个 指针 数组 ， 其 中 每 个 指针 指 癌 一 个 地 址 。 对 
于 每 一 个 地 址 ， 我 们 调用 inet_ntop 并 输出 返回 的 字符 串 。 


我 们 首先 以 主机 aix 的 名 字 作 为 参数 运行 该 程序 ， 该 主机 只 有 一 个 
IPv4 地 址 。 





freebsd % hostent aix 
official hostname: aix.unpbook.com 
address: 192.168.42.2 


注意 ， 正 式 主机 名 就 是 EFQDN。 另 外 ， 即 使 该 主机 有 IPv6 地 址 ， 
回 的 也 仅仅 是 IPv4 地 址 。 
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接着 是 有 多 个 IPv4 地 址 的 一 个 Web 服 务 器 主机 的 输出 。 


freebsd % hostent cnn.com 


official hostname: 


address: 
address: 
address: 
address: 
address: 
address: 
address: 
address: 


64. 
64. 
64. 
64. 
64. 
64. 
64. 
64. 


cnn.com 


236. 
236. 
236. 
236. 
236. 
236. 
236. 
236. 


16. 
16. 
16. 
16. 
24. 
24. 
24. 
24. 


20 
52 
84 
116 
4 
12 
20 
28 





下 一 个 名 字 在 11.2 节 的 例子 中 有 一 个 CNAME 记 录 。 


freebsd % hostent www 
official hostname: 


alias: 


address: 


linux.unpbook.com 


www .unpbook.com 


206.168.112.219 


正如 预期 的 那样 ， 正 式 主机 名 不 同 于 我 们 的 命令 行 参数 。 


为 了 查看 由 hstrerror 函 数 返 回 的 错误 信息 串 ， 我 们 先 指定 一 个 不 
存在 的 主机 名 ， 再 指定 一 个 仅 有 MX 记录 的 名 字 。 


freebsd % hostent nosuchname.invalid 
gethostbyname error for host: nosuchname.invalid: Unknown host 


freebsd % hostent uunet.uu.net 
gethostbyname error for host: uunet.uu.net: No address associated with name 


11.4 gethostbyaddr rA 2X 


gethostbyaddr A Av isk E] E — 4 — 3E rii] HJ TPH HE FR BAB VY EL ZZ » 
与 gethostbyname 的 行为 刚好 相反 。 


#include <netdb.h> 
struct hostent *gethostbyaddr(const char * addr , socklen_t len, int family); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 设 






































h_errno 


本 函数 返回 一 个 指向 与 之 前 所 述 同样 的 hostent 结 构 的 指针 。 对 于 
这 个 随 gethostbyname 函 数 讲解 过 的 hostent 结 构 ， 我 们 感 兴趣 的 字段 通 
常 是 存放 规范 主机 名 的 h_name。 


addr 参 数 实际 上 不 是 char * 类 型 ， 而 是 一 个 指 同 存放 IPv4 地 址 的 某 
个 in_addr 结 构 的 指针 ;，len 参 数 是 这 个 结构 的 大 小 : 对 于 IPv4 地 址 为 
4。family 参 数 为 AF_INET。 
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按照 DNS 的 说 法 ，gethostbyaddr 在 in_addr.arpa 域 中 癌 一 个 名 字 服 
务 器 查询 PTR 记 录 。 


11.5 getservbyname fil getservbyport PA Zi 


REDL—PE, ARS HI SEA SORTA. WR BT ERE eS HB 
过 其 名 字 而 不 是 其 端口 号 来 指 代 一 个 服务 ， 而 且 从 名 字 到 端口 号 的 映射 
关系 保存 在 一 个 文件 中 (通常 是 /etc/services) ， 那 么 即使 端口 号 发 
生变 动 ， 我 们 需 修改 的 仅仅 是 /etc/yservices 文 件 中 的 某 一 行 ， 而 不 必 
BE Toei PE LF EEF - getservbyname KAH T T8 4528 Ee 44 T FR AAV 


FI o 











赋予 各 个 服务 的 端口 号 规范 列表 由 IANA 通过 
http:/www.iana.org/assignments/port-num-bers 维 护 〈2.9 
节 ) 。y/etc/services 文 件 通常 包含 由 IANA 维护 的 规范 赋值 列表 的 某 个 
子 集 。 


#include <netdb.h> 
struct servent *getservbyname(const char * servname , const char * protoname ); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 








本 函数 返回 的 非 空 指针 指 同 如 下 的 servent 结 构 。 


struct servent ( 


char *s name; /* official service name */ 

char **s aliases; /* alias list */ 

int s port; /* port number, network byte order */ 
char *s proto; /* protocol to use */ 


服务 名 参数 servname 必 须 指定 。 如 果 同 时 指定 了 协议 《 即 protoname 
参数 为 非 空 指针 ) ， 那 么 指定 服务 必须 有 匹配 的 协议 。 有 些 因特网 服务 
既 用 TCP 也 用 UDP 提供 《例如 DNS 以 及 图 2-18 中 的 所 有 服务 ) ， 其 他 因 
特 网 服务 则 仅仅 支持 单个 协议 〈 例 如 FTP 要 求 使 用 TCP) 。 如 果 
protoname 未 指定 而 servname 指 定 服 务 文 持 多 个 协议 ， 那 么 返回 哪个 端口 
号 取决 于 实现 。 通 常情 况 下 这 种 选择 无 关 紧 要 ， 因 为 支持 多 个 协议 的 服 
务 往 往 使 用 相同 的 TCP 端 口号 和 UDP 端口 号 ， 不 过 这 点 并 没有 保证 。 


servent 绪 构 中 我 们 关心 的 主要 字段 是 端口 号 。 既 然 端口 号 是 以 网 





络 字 节 厅 返回 的 ， 把 它 存放 到 套 接 字 地 址 结构 时 绝对 不 能 调用 htons。 
本 函数 的 典型 调用 如 下 : 


struct servent *sptr; 


sptr - getservbyname("domain", "udp"); /* DNS using UDP */ 

sptr - getservbyname("ftp", "tcp"); /* FTP using TCP */ 

sptr - getservbyname("ftp", NULL); /* FTP using TCP */ 

sptr - getservbyname("ftp", "udp"); /* this call will fail */ 
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既然 FTP 仅 仅 支 持 TCP， 第 二 个 调用 和 第 三 个 调用 等 效 ， 第 四 个 调 
用 则 会 失败 。 以 下 是 /etc/services 文 件 中 典型 的 文本 行 : 


freebsd % grep -e ^ftp -e ^domain /etc/services 


ftp-data 20/tcp ZFile Transfer [Default Data] 

ftp 21/tcp ZFile Transfer [Control] 

domain 53/tcp ZDomain Name Server 

domain 53/udp ZDomain Name Server 

ftp-agent 574/tcp #FTP Software Agent System 

ftp-agent 574/udp #FTP Software Agent System 

ftps-data 989/tcp # ftp protocol, data, over TLS/SSL 
ftps 990/tcp # ftp protocol, control, over TLS/SSL 


下 一 个 函数 getservbyport 用 于 根据 给 定 端 口号 和 可 选 协议 碍 找 相 
应 服务 。 

#include <netdb.h> 

struct servent *getservbyport(int port, const char *protoname); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 








port 参 数 的 值 必须 为 网 络 字 市 序 。 本 函数 的 典型 调用 如 下 : 


struct servent *sptr; 


sptr - getservbyport(htons(53), "udp"); /* DNS using UDP */ 
sptr - getservbyport(htons(21), "tcp"); /* FTP using TCP */ 
sptr - getservbyport(htons(21), NULL); /* FTP using TCP */ 
sptr = getservbyport(htons(21), "udp"); /* this call will fail */ 


因为 UDP 上 没有 服务 使 用 端口 21， 所 以 最 后 一 个 调用 将 失败 。 


必须 清楚 的 是 ， 有 些 端口 号 在 TCP 上 用 于 一 种 服务 ， 在 UDP 上 却 用 
于 完全 不 同 的 另 一 种 服务 。 例 如 : 


freebsd % grep 514 /etc/services 
shell 514/tcp cmd Zlike exec, but automatic 
syslog 514/udp 





表明 端口 514 在 TCP 上 由 rsh 命 令 使 用 ， 在 UDP 上 却 由 syslog 守 护 进 
程 使 用 。512 一 514 范 围 内 的 端口 都 有 这 个 特性 。 
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例子 : 使 用 gethostbyname 和 getservbyname 


我 们 现在 可 以 把 图 1-5 中 的 TCP 时 间 获 取 客 户 程序 改 为 使 
用 gethostbyname 和 getservby-name， 并 改 用 2 个 命令 行 参数 : 主机 名 和 
服务 名 。 图 11-4 是 改动 后 的 程序 。 它 还 展示 了 一 个 期 望 的 行为 ， 尝 试 连 
接 到 多 宿 服 务 器 主机 的 每 个 JP 地址， 直到 有 一 个 连接 成 功 或 所 有 地 址 党 
试 完毕 为 止 。 





nanies/adaviraetoocit d.c 


1 #incluie *urp.h" 

2 -nt 

3 naia!in-z argc. char **aray! 

4 ' 

5 int sockic. mn; 

€ char —recvlinc[MAXLINE + 1]: 

了 struct Sockacdr in servacdr; 

8 struct in zdcr **pptr; 

3 struct in ader *inetad3dtp[2]; 

10 struct in asdcr inetaddr, 

1L struct hostert *hp; 

12 struct servert *sp; 

13 if (arge 1= 3; 

14 err uit (“usage: daytimet-pclil «hostnane» «services"); 
15 if ( (hp = gethostbtyazame(azgvil]!) == NULL) | 

16 i: (inst aton'argv[1], &inecaddr) == 0) { 

17 er_ quit ("hostname error for ts: $s", argv[i], 
18 hstrerror(h_errno)} i 

19 } eise : 

z0 instadirp Jj = &irctacdr; 

zL instadarp il] = NULL; 

22 pptr = inetaddtp; 

24 

24 } elsa [ 

25 pptr = (struct in_addr **) Hp-»h addr list; 

26 } 

27 if ¢ (sp = getservhyname(ergv(2), "rep")) s= WAL) 

28 err quil ("ygelservbynane error for $s", argv 2]!; 
29 fcr | ; *pptr != MULL; ppt-4«) ( 

30 sockfd = Sccke-|AF INET, SOCK_STREAM, 0); 

31 bzero(Sservaddr, sizeof (servaddr) i; 

32 servadir.siu family = AF INST; 

33 servedir.sin port = sp-»5 port; 

34 memcpy (aservaddr.sin_adar, *pptr, sizeofí(szrucc in_addr)! ; 
as printi(*trying %s\n", Sock_ntop{(SA& ^; &servaddr, sizeof (servaddr!)}; 
36 i= (connect |cockid, (EA *) ceervaddr, ciseocf(cervadir)] == 0) 
27 brzcak; /* oucccoc */ 

48 err ret["ccnnect error"); 

39 close(gockfd!; 

au } 

az if (*pptr == NULL} 

42 err guit ("unable to connect"); 

41 w^ le ( (n m Read[sockld, recvline, MAXTINE}) > 0) i 
44 recvlinefn] = 3; /* mill terminate */ 

45 Fpcts(recvllne, stdout! ; 

46 } 

4? exiti2); 

48 : 


nantes/aaviinetonelil.c 








图 11-4 使 用 gethostbyname 和 getservbyname 的 时 间 获 取 客 户 程序 
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调用 gethostbyname 和 getservbyname 


13-28 ”第 一 个 命令 行 参数 是 主机 名 ， 我 们 把 它 作 为 参数 传递 给 


gethostbyname， 第 二 个 命令 行 参 数 是 服务 名 ， 我 们 把 它 作为 参数 传递 

给 getservbyname。 假 设 我 们 的 代码 使 用 TCP， 我 们 把 它 作 

为 getservbyname 的 第 二 个 参数 。 如 果 gethostbyname 名 字 查 找 失 败 ， 我 

Vt vi Hinet aton (3.65505 ， 确 定 其 参数 是 否 已 是 ASCII 格 式 
的 地 址 ， 大 是 则 构造 一 个 由 相应 的 地 址 构成 的 单元 素 列表 。 


尝试 每 个 服务 器 主机 地 址 


20-35 ”我 们 把 对 socket 和 connect 的 调用 放 在 一 个 循环 中 ， 该 循环 
为 服务 器 主机 的 每 个 地 址 执行 一 次 ， 直 到 connect 成 功 或 I1P 地 址 列表 试 
完 为 止 。 调 用 socket 以 后 ， 我 们 以 服务 器 主机 的 IP 地 址 和 端口 装填 网 际 
网 套 接 字 地 址 结构 。 尽 管 我 们 可 以 把 对 bzero 的 调用 和 它 后 面 的 两 个 赋 
值 语 句 置 于 循环 体 之 外 以 提高 执行 效率 ， 不 过 如 图 所 示 的 代码 要 易 读 
些 。 与 服务 器 建立 连接 几 平 不 会 成 为 网 络 客 户 的 性 能 瓶 贷 。 





调用 connect 


3e-39 ”接着 调用 connect。 如 果 调 用 成 功 ， 那 束 使 用 break 语 名 终止 
循环 ， 人 否则 输出 一 个 出 错 消 息 并 关闭 套 接 字 。 回 顾 一 下 ， 我 们 知 
道 connect 调 用 失败 的 描述 符 必 须 关 闭 ， 不 能 再 用 。 


检查 是 否 失 败 


41-42 ”如 果 循 环 终止 的 原因 是 没有 一 个 connect 调 用 成 功 ， 那 就 终 
止 程序 运行 。 
读 取 服务 器 的 应 答 

43-47 ”和 否则， 我 们 读 取 服务 器 的 应 答 ， 并 在 服务 器 关闭 连接 后 终 
止 程序 运行 。 

如 果 我 们 针对 正在 运行 标准 daytime 服 务 器 的 某 个 主机 运行 本 客户 
程序 ， 我 们 就 会 得 到 预期 的 输出 : 


freebsd % daytimetcpclil aix daytime 
trying 192.168.42.2:13 
Sun Jul 27 22:44:19 2003 





更 有 意思 的 是 针对 一 个 不 在 运行 标准 daytime 服 务 器 的 多 条 系统 运 


行 本 程序 : 


freebsd % daytimetcpclil gateway.tuc.noao.edu daytime 
trying 140.252.108.1:13 

connect error: Operation timed out 

trying 140.252.1.4:13 

connect error: Operation timed out 

trying 140.252.104.1:13 

connect error: Connection refused 

unable to connect 
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11.6 getaddrinfork ZA 


gethostbyname 和 gethostbyaddr 这 两 个 函数 仅仅 文 持 IPv4。 正 如 
11.20 节 将 介绍 的 那样 ， 解 析 IPv6 地 址 的 API 经 历 了 若干 次 反复 ; 最 终结 
UE getaddrintom Be. getaddrinfo 国 数 能 够 处 理 名 字 到 地 址 以 及 服务 
到 端口 这 两 种 转换 ， 返 回 的 是 一 个 sockaddr 结 构 而 不 是 一 个 地 址 列表 。 
这 些 sockaddr 结 构 随 后 可 由 套 接 字 函 数 直接 使 用 。 如 此 一 
来 ，getaddrinfo 函 数 把 协议 相关 性 完全 隐藏 在 这 个 库 函 数 内 部 。 应 用 
吉 构 。 该 函数 在 POSIX 规 
范 中 定义 


POSIX 对 这 个 函数 的 定义 来 源 于 一 个 由 Keith Sklower 早 先 提 出 的 名 
为 getconninfo 的 函数 。 这 个 函数 是 他 与 Eric Allman, Walliam Durst, 
Michael Karels, Steven Wise 共 同 讨 论 的 结果 ， 起 源 于 Eric Allman 编 写 的 
一 小 早期 实现 。 EEIZ 和 服务 名 足以 独立 于 协议 细节 连接 到 一 个 具 
体 服务 ， 这 个 评述 是 由 Marshall Rose 在 X/Open 的 一 个 提议 中 作出 的 。 


#include <netdb.h> 





int getaddrinfo(const char *hostname , const char *service , 
const struct addrinfo *hints , struct addrinfo **result ); 
返回 : 若 成 功 则 为 9， 若 出 错 则 为 非 9〈 见 图 11-7) 

















本 商 数 通过 result 指 针 参 数 返 回 一 个 指 问 addrinfo 结 构 链 表 的 指针 ， 
而 addrinfo 结 构 定 义 在 头 文 件 <netdb .h> 中 。 


struct addrinfo ( 





int ai flags; /* AI PASSIVE, AI CANONNAME */ 

int ai family; /* AF xxx */ 

int ai socktype; /* SOCK xxx */ 

int ai protocol; /* © or IPPROTO xxx for IPv4 and IPv6 */ 

socklen t ai addrlen; /* length of ai addr */ 

char *ai canonname; /* ptr to canonical name for host */ 

struct sockaddr *ai_addr; /* ptr to socket address structure */ 

struct addrinfo *ai_next; /* ptr to next structure in linked list */ 
}; 


其 中 hostname 参 数 是 一 个 主机 名 或 地 址 串 〈IPv4 的 点 分 十 进 制 数 串 
或 Ipv6 的 十 六 进 制 数 串 ) 。 service 参数 是 一 个 服务 名 或 十 进 制 哨 口号 数 
串 。 (习题 11.4 也 要 求 允许 使 用 地 址 串 作 为 主机 名 ， 使 用 端口 号 数 串 作 


为 服务 名 。 ) 


Pints 参 数 可 以 是 一 个 空 指针 ， 也 可 以 是 一 个 指 同 某 个 addrinfo 结 构 
的 指针 ， 调 用 者 在 这 个 结构 中 填 入 关于 期 望 返 回 的 信息 类 型 的 暗示 。 举 
例 来 说 ， 如 果 指 定 的 服务 既 支 持 TCP 也 支持 UDP〔( 例 如 指 代 某 个 DNS 服 
务 右 的 domain 服 务 ) ， 那 么 调用 者 可 以 把 hints 结 构 中 的 ai_socktype 成 员 
设置 为 Sock_DGRAM， 使 得 返回 的 仅仅 是 适用 于 数据 报 套 接 字 的 信息 。 
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hints 结 构 中 调用 者 可 以 设置 的 成 员 有 : 














ai_flags《〈 零 个 或 多 个 或 在 一 起 的 AI_xxx 值 ) ; 
ai family 〔〈 革 个 AF_Xxxx 值 ) ; 

ai socktype 〈 革 个 SocK_xxx 值 ) ; 

ai protocole 


其 中 ai_ flags 成 员 可 用 的 标志 值 及 其 含义 如 下 。 
AI PASSIVE “” 套 接 字 将 用 于 被 动 打开 。 
AI_CANONNAME “告知 getaddrinfo 函 数 返 回 主机 的 规范 名 字 。 


AI_NUMERICHOST ”防止 任何 类 型 的 名 字 到 地 址 映射 ，hostname 参 数 
必须 是 一 个 地 址 串 。 


AI_NUMERICSERV ”防止 任何 类 型 的 名 字 到 服务 映射 ，service 参 数 必 
须 是 一 个 十 进 制 端口 号 数 串 。 


AI_V4MAPPED ”如 果 同 时 指定 ai_family 成 员 的 值 为 AF_INET6， 那 么 
如 果 没 有 可 用 的 AAAA 记 录 ， 束 返回 与 A 记录 对 应 的 IPv4 映 射 的 IPv6 地 
址 。 





AL ALL ”如 果 同 时 指定 AI_v4MAPPED 标 志 ， 那 么 除了 返回 与 AAAA 记 
录 对 应 的 IPv6 地 址 外 ， 还 返回 与 A 记录 对 应 的 IPv4 映 射 的 IPv6 地 址 。 


AI ADDRCONFIG 按照 所 在 主机 的 配置 选择 返回 地 址 类 型 ， 也 就 是 
只 查找 与 所 在 主机 回馈 接口 以 外 的 网 络 接口 配置 的 人 P 地 址 版 本 一 致 的 地 





址 。 


如 果 hints 参 数 是 一 个 空 指针 ， 本 函数 就 假设 ai_flag、ai_socktype 
和 ai_protocol 的 值 均 为 0，ai_family 的 值 为 AF_UNSPEC。 


如 果 本 函数 返回 成 功 (0) ， 那 么 由 result 参 数 指向 的 变量 已 被 填 入 
一 个 指针 ， 它 指向 的 是 由 其 中 的 ai_next 成 员 串 接 起 来 的 addrinfo 结 构 链 
表 。 可 导致 返回 多 个 addrinfo 结 构 的 情形 有 以 下 两 个 。 


(1) “如果 与 hpostname 参 数 关 联 的 地 址 有 多 个 ， 那 么 适用 于 所 请 求 地 
址 族 〈 可 通过 Pints 结 构 的 ai family 成 员 设 置 ) 的 每 个 地 址 都 返回 一 个 
对 应 的 结构 。 


(2) “如 果 service 参 数 指 定 的 服务 文 持 多 个 套 接 字 类 型 ， 那 么 每 个 套 
接 字 类 型 都 可 能 返回 一 个 对 应 的 结构 ， 具 体 取决 于 hints 结 构 的 
ai_socktype 成 员 。 (注意 ，getaddrinfo 的 多 数 实现 认为 只 能 按照 
由 ai_socktype 成 员 请 求 的 套 接 字 类 型 端口 号 数 串 到 端口 的 转换 ， 如 果 
没有 指定 这 个 成 员 ， 那 就 返回 一 个 错误 。) 
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举例 来 襄 ， 如 果 在 没有 提供 任何 暗示 信息 的 前 提 下 ， 请 求 查 找 有 2 
个 IP 地 址 的 某 个 主机 上 的 domain 服 务 ， 那 将 返回 4 个 addrinfo 结 构 ， 分 别 
是 : 





第 一 个 IP 地 址 组 合 sSock_sTREAM 套 接 字 类 型 ， 
第 一 个 IP 地 址 组 合 sock_DGRAM 套 接 字 类 型 ; 
第 二 个 IP 地 址 组 合 sock_sTREAM 套 接 字 类 型 ，; 
第 二 个 IP 地 址 组 合 sock_DGRAM 套 接 字 类 型 。 


图 11-5 展 示 了 本 例子 。 当 有 多 个 addrinfo 结 构 返 回 时 ， 这 些 结构 的 
先后 顺序 没有 保证 ， 也 就 是 说 ， 我 们 并 不 能 假定 TICP 服 务 总 是 先 于 UDP 
服务 返回 。 


尽管 没有 保证 ， 本 函数 的 实现 却 应 该 按照 DNS 返 回 的 顺序 返回 各 个 
IP 地 址 。 有 些 解 析 器 允许 系统 管理 员 在 /etc/resolv.conf 文 件 中 指定 地 
址 的 排序 顺序 。IPv6 可 指定 地 址 选择 规则 (CRFC 3483 [Draves 





2003] ) ， 可 能 影响 由 getaddrinfo 返 回 地 址 的 顺序 。 


在 addrinfo 结 构 中 返回 的 信息 可 现成 用 于 socket 调 用 ， 随 后 现成 用 
于 适合 客户 的 connect 或 sendto 调 用 ， 或 者 是 适合 服务 器 的 bind 调 
用 。socket 函 数 的 参数 就 是 addrinfo 结 构 中 的 ai_family、ai_socktype 
和 ai_addr 成 员 。connect 或 bind 函 数 的 第 二 个 和 第 三 个 参数 就 是 该 结构 
中 的 ai_addr〔 一 个 指 癌 适当 类 型 套 接 字 地 址 结构 的 指针 ， 地 址 结构 的 
内 容 由 getaddrinfo 函 数 填写 ) 和 ai_addrlen 〈 这 个 套 接 字 地 址 结构 的 大 
小 ) 成 员 。 


如 果 在 hints 结 构 中 设置 了 AI_cANONNAME 标 志 ， 那 么 本 函数 返回 的 第 
一 个 addrinfo 结 构 的 ai_canonname 成 员 指 问 所 查找 主机 的 规范 名 字 。 按 
照 DNS 的 说 法 ， 规 范 名 字 通 常 是 FQDN。 诸 如 telnet 之 类 程序 往往 使 用 
这 个 标志 以 显示 所 连接 到 主机 的 规范 名 字 ， 这 样 即 使 用 户 给 定 的 是 一 个 
简单 名 字 或 别名 ， 他 们 也 能 搞 清真 正 查找 的 名 字 。 


图 11-5 给 出 了 执行 下 列 程序 片段 返回 的 信息 。 


struct addrinfo hints, *res; 








bzero(&hints, sizeof(hints)); 
hints.ai flags - AI CANONNAME; 
hints.ai family - AF INET; 


getaddrinfo("freebsd4", "domain", &hints, &res); 


图 中 除 res 变 量 外 的 所 有 内 容 都 是 由 getaddrinfo 函 数 动态 分 配 的 内 
存 空 间 ( 壁 如 来 自 malloc 调 用 〉 。 我 们 假设 主机 freebsd4 的 规范 名 字 
是 freebsd4.unpbook.com， 并 且 它 在 DNS 中 有 2 个 IPv4 地 址 。 
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ai_family 
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ai addrlen 
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ai flags 
al family 
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ai protocol 
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SOCK DGRAM 
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I6,AF INET, 53 
135.297.17.100 


AF INET 
SOCK UGKAM 
IPPPROTO UDF 


NULL 


sockaddr_in{} 


16, AF_INET, 53 
172.24.37.94 





AF INET 
SOCK_STREAM 
IPPROTS TSP 
15 


sockaddr in 








i6,AF INET, 53 
i35.197.17.100 


AF INET 
SOCK STREAM 

PPROTO TCP 
16 


NULL sockaddr in() 





16,AF INET, 53 
172.24.37.54 


[11-5 getaddrinfo 返 回信 息 的 实例 


端口 53 用 于 domain 服 务 。 这 个 端口 号 在 套 接 字 地 址 结构 中 按照 网 络 
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节 序 存放 。 返 回 的 ai_protocol 值 或 为 IJPPROTO_TCP， 或 为 


= æ ee oe ee ee se es ee es ss i ee ee a a a i em a a 


IPPROTO_UDP. ZÉjéÉai familyfllai socktype?H G AES s 41H E T CP EX, 
UDP 协议 ， 那 么 返回 的 ai_protocol 值 为 0 也 可 以 接受 。 也 就 是 说 ， 如 果 
系统 没有 实现 除 TCP 外 的 其 他 sock_sTREAM 协 议 ( 如 SCTP) ， 套 接 字 类 
型 值 为 sock_sTREAM 的 那 两 个 addrinfo 结 构 协 议 值 可 为 0， 同 样 地 ， 如 果 
系统 没有 实现 除 UDP 外 的 其 他 sock_p6RAM 协 议 ( 编 写本 书 时 还 没有 标准 
化 的 协议 ， 不 过 IETF 正 在 开发 两 个 这 类 协议 ) ， 套 接 字 类 型 值 

为 SocK_DGRAM 的 那 两 个 addrinfo 结 构 协 议 值 可 为 0。 最 安全 的 做 法 是 让 

getaddrinfo 总 是 返回 明确 的 协议 值 。 


图 11-6 汇 总 了 根据 指定 的 服务 名 (可 以 是 一 个 十 进 制 端口 号 数 串 ) 
和 ai_socktype 有 暗示 信息 为 每 个 通过 主机 名 查找 获得 的 IP 地 址 返回 
addrinfo 结 构 的 数目 。 


















RAW Gr tt, EMER 7: 


He AS "TC — m e TCP 和 | TCP. UDP 
仅 TCP IX UDI TCPAILDI SCIP | scTP 
2 2 3 
EI 2 2 











图 11-6 ”为 每 个 卫 地 址 返回 的 addrinfo 结 构 的 数目 








在 不 考虑 SCTP 的 前 提 下 ， 只 有 在 未 提供 ai_socktype 上 暗示 信息 时 才 
可 能 为 每 个 IP 地 址 返回 多 个 addrinfo 结 构 ， 此 时 或 者 服务 以 名 字 标 识 并 
且 同 时 支持 TCP 和 UDP (在 /etc/services 文 件 中 指明 ) ， 或 者 服务 以 端 
口号 标识 。 


如 果 枚 举 getaddrinfo 所 有 64 种 可 能 的 输入 《因为 它 共 有 6 个 二 值 输 


入 变量 ) ， 那 么 许多 是 无 效 的 ， 有 些 则 没有 多 大 意义 。 为 此 我 们 只 碍 看 
一 些 常见 的 输入 。 





e 指定 Postname 和 service。 这 是 TCP 或 UDP 客户 进程 调用 getaddrinfo 
的 常规 输入 。 该 调用 返回 后 ，TCP 客 户 在 一 个 循环 中 针对 每 个 返回 
的 外地 址 ， 逐 一 调用 socket 和 connect， 直 到 有 一 个 连接 成 功 ， 或 者 
所 有 地 址 尝试 完毕 为 止 。 我 们 将 在 图 11-10 中 随 上 自行 开发 的 
tcp_connect 函 数 给 出 这 样 的 一 个 例子 。 

对 于 UDP 客 户 ， 由 getaddrinfo 填 入 的 套 接 字 地 址 结构 用 于 调 
用 sendto 或 connect。 如 果 客 户 能 够 判定 第 一 个 地 址 看 来 不 工作 





《其 手段 不 外 乎 或 者 在 已 连接 的 UDP 套 接 字 上 收 到 出 错 消息 ， 或 者 
在 未 连接 的 套 接 字 上 经 历 消息 接收 超时 〉)， 那 么 可 以 尝试 其 余 的 地 
址 


如 果 客 户 清楚 上 自己 只 处 理 一 种 类 型 的 套 接 字 【〔 例 如 Telnet 和 FTP 客 
户 只 处 理 TCP，TFTP 客 户 只 处 理 UDP) ， 那 么 应 该 把 hints 结 构 的 
ai_socktype 成 员 设 置 成 SoCK_STREAM 或 SOCK_DGRAM。 
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典型 的 服务 器 进程 只 指定 service 而 不 指定 hostmame， 同 时 在 hints 结 
构 中 指定 AI_PASSITVE 标 志 。 返 回 的 套 接 字 地 址 结构 中 应 含有 一 个 值 
为 INADDR_ANY (对 于 IPv4) 或 IN6ADDR_ANY_INIT (对 于 IPv6) 的 IP 地 
址 。TCP 服 务 器 随后 调用 socket、bind 和 1isten。 如 果 服 务 器 想 要 
malloc 一 个 套 接 字 地 址 结构 以 从 accept 获 取 客 户 的 地 址 ， ISA ik 
回 的 ai_addrlen 值 给 出 了 这 个 套 接 字 地 址 结构 的 大 小 。 

UDP 服务 器 将 调用 socket、bind 和 recvfrom。 如 果 服 务 器 想 要 
malloc 另 一 个 套 接 字 地 址 结构 以 从 recvfrom 获 取 客 户 的 地 址 ， 那 么 
返回 的 ai _addrlen 值 给 出 了 这 个 套 接 字 地 址 结构 的 大 小 。 

与 典型 的 客户 一 样 ， 如 果 服 务 器 清楚 目 己 只 处 理 一 种 类 型 的 套 接 
字 ， 那 么 应 该 把 hints 结 构 的 ai_socktype 成 员 设 置 成 Sock_STREAM 
或 socK_DGRAM。 这 样 可 以 避免 返回 多 个 结构 ， 其 中 可 能 出 现 错误 的 
ai_socktype 值 。 

到 目前 为 止 ， 我 们 展示 的 TCP 服 务 喜 仅仅 创建 一 个 监听 套 接 字 ， 
UDP 服务 器 也 仅仅 创建 一 个 数据 报 套 接 字 。 这 也 是 我 们 讨论 上 一 点 
隐 含 的 一 个 假设 。 服 务 器 程序 的 男 一 种 设计 方法 是 使 用 select 

或 po11l 函 数 让 服务 器 进程 处 理 多 个 套 接 字 。 这 种 情形 下 ， 服 务 器 将 
Wi JJ 由 getaddrinfo 返 回 的 整个 addrinfo 结 构 链 表 ， 并 为 每 个 结构 创 
g—^-ERRAB, 再 使 用 select 或 po11。 


这 个 技术 的 问题 在 于 ，getaddrinfo 返 回 多 个 结构 的 原因 之 一 是 该 
服务 可 同时 由 IPv4 和 IPv6 处 理 〈 图 11-8) 。 然 而 正如 将 在 12.2 节 看 到 的 
那样 ， 这 两 个 协议 并 非 完全 独立 。 也 就 是 说 ， 如 果 我 们 为 某 个 给 定 端口 
创建 了 一 个 IPv6 监 听 套 接 字 ， 那 么 没有 必要 为 同一 个 端口 再 创建 一 个 
IPv4 套 接 字 ， 因 为 来 自 IPv4 客 户 的 连接 将 由 协议 栈 和 IPv6 监 听 套 接 字 自 
动 处 理 ， 而 不 论 是 否 设置 了 IPV6_v60NLY 套 接 字 选项 。 











RAE getaddrinfo K SUA SE LK gethostbynamefilget servbynamelx PY 7S 


函数 “好 ”( 它 方便 我 们 编写 协议 无 关 的 程序 代码 ， 单 个 函数 能 够 同时 处 
理 主机 名 和 服务 ， 所 有 返回 信息 都 是 动态 而 不 是 静态 分 配 的 ) ， 不 过 它 
仍然 没有 像 期 待 的 那样 好 用 。 问 题 在 于 我 们 必须 先 分 配 一 个 hints 结 构 ， 
把 它 清 零 后 填写 需要 的 字段 ， 再 调用 getaddrinfo， 然 后 遍历 一 个 链表 
逐一 尝试 每 个 返回 地 址 。 在 以 后 几 节 我 们 将 为 典型 的 TCP 或 UDP 客 户 和 
服务 器 提供 一 些 较 简单 的 接口 ， 并 用 在 本 书 以 后 的 程序 编写 中 。 


getaddrinfo 解 决 了 把 主机 名 和 服务 名 转换 成 套 接 字 地 址 结构 的 问 
题 。 我 们 将 在 11.17 节 讲解 它 的 反 义 函 数 getnameinfo， 它 把 套 接 字 地 址 
结构 转换 成 主机 名 和 服务 名 。 























11.7 gai strerrorrA2 


图 11-7 给 出 了 可 由 getaddrinfo 返 回 的 非 0 错误 值 的 名 字 和 含 
义 。 oe 已 的 唯一 参数 ， 返 回 一 个 指向 对 应 的 出 错 
iA HT 


320 


EAI AGAIN 名 字 人 解析 中 临时 失败 

EAT BADFLAGS abt lags 的 信 无 效 

EAT FAIL 名 字 和 解析 中 不 可 恢复 地 失败 
EAT FAMILY ASMZ¥fai family 


EA: MEMORY 内 1 f 分 配 he yu 

EA. NONAME hostname 或 service 示 提供， 或 者 不 可 知 

EA. OVERFLOW HL SEE P pS ES CDL B getnameinfo 0 RO 
EAT SERVICE 不 支持 ai socktype 类 型 的 Service 

EAI SOCKTYPE | 不 支持 ai socktype 


EAI SYSTEM 在 srrno 变 量 中 有 系统 错误 返回 





图 11-7 getaddrinfo 返 回 的 非 0 错 误 常 值 





#include <netdb.h> 


const char *gai_strerror(int error ); 








Ds 
n 
um 
nt 





向 错误 描述 消息 字符 串 的 指针 








11.8 freeaddrinfork ží 


由 getaddrinfo 返 回 的 所 有 存储 空间 都 是 动态 获取 的 〈 璧 如 来 目 
malloc 调 用 ) ， 包 括 addrinfo 结 构 、ai_addr 结 构 和 ai_canonname 字 符 
串 。 这 些 存储 空间 通过 调用 freeaddrinfo 返 还 给 系统 。 


#include <netdb.h> 


void freeaddrinfo(struct addrinfo *ai); 


qi 参数 应 指 问 由 getaddrinfo 返 回 的 第 一 个 addrinfo 结 构 。 这 个 链表 
中 的 所 有 结构 以 及 由 它们 指向 的 任何 动态 存储 空间 (譬如 僚 接 字 地 址 结 
RAE EBL A) AR BORE BE 


假设 我 们 调用 getaddrinfo， 遍 历 返 回 的 addrinfo 结 构 链表 后 找到 所 
需 的 结构 。 如 果 我 们 为 保存 其 信息 而 仅仅 复制 这 个 addrinfo 结 构 ， 然 后 
调用 freeaddrinfo， 那 就 引入 了 一 个 潜藏 的 错误 。 原 因 在 于 这 
个 addrinfo 结 构 本 里 指 问 动态 分 配 的 内 存 空间 (用 于 存放 套 接 字 地 址 结 
构 和 可 能 有 的 规范 主机 名 〉 ， 因 此 由 我 们 保存 的 结构 指 同 的 内 存 空间 已 
在 调用 freeaddrinfo 时 返还 给 系统 ， 稍 后 可 能 用 于 其 他 目的 。 

只 复制 这 个 addrinfo 结 构 而 不 复制 由 它 转 而 指向 的 其 他 结构 称 为 浅 
复制 (shallow copy) 。 既 复制 这 个 addrinfo 结 构 又 复制 由 它 指 同 的 所 有 
其 他 结构 称 为 深 复制 (deep copy) . 
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11.9 getaddrinfo žk: IPv6 


POSIX 规 范 定 义 了 getaddrinfo 国 数 以 及 该 函数 为 IPv4 或 IPv6 返 回 的 


信息 。 在 以 图 11-8 汇 总 这 些 返 回 值 之 前 ， 我 们 注意 以 下 几 点 。 





getaddrinfo 在 处 理 两 个 不 同 的 输入 : 一 个 是 套 接 字 地 址 结构 类 
型 ， 调 用 者 期 竺 返回 的 地 址 结构 符合 这 个 类 型 ， 另 一 个 是 资源 记录 
类 型 ， 在 DNS 或 其 他 数据 库 中 执行 的 查找 符合 这 个 类 型 。 

由 调用 者 在 hints 结 构 中 提供 的 地 址 族 指 定 调用 者 期 竺 返回 的 套 接 字 
地 址 结构 的 类 型 。 如 果 调 用 者 指定 AF_INET，getaddrinfo 了 水 数 束 不 
能 返回 任何 sockaddr_in6 结 构 ; 如 果 调 用 者 指定 
AF_INET6，getaddrinfo 消 数 束 不 能 返回 任何 sockaddr_in 结 构 。 
POSIX = # GOR Vl FA A FB EAF_UNSPEC, HBA getaddrinfork ACI E] 
的 是 适用 于 指定 主机 名 和 服务 名 且 适 合 任意 协议 族 的 地 址 。 这 就 意 
味 着 如 果菜 个 主机 既 有 AAAA 记 录 又 有 A 记 录 ， 那 么 AAAA 记 录 将 
作为 sockaddr_in6 结 构 返 回 ，A 记 录 将 作为 sockaddr_in 结 构 返 回 。 
在 sockaddr_in6 结 构 中 作为 IPv4 映 射 的 IPv6 地 址 返回 A 记录 没有 任 
何 意义 ， 因 为 这 么 做 没有 提供 任何 额外 信息 : 这 些 地 址 已 

在 sockaddr_in 结 构 中 返回 过 了 。 

POSIX 的 这 个 声明 也 意味 着 如 果 设 置 了 AI_PASSIVE 标 志 但 是 没有 指 
定 主机 名 ， 那 么 IPv6 通 配 地 址 (IN6ADDR_ANY_INIT 或 0::0〉 应 该 作 
为 sockaddr_in6 结 构 返 回 ， 同 样 IPv4 通 配 地 址 (INADDR_ANY 或 .0) 应 
该 作为 sockaddr_in 结 构 返 回 。 首 先 返 回 IPv6 通 配 地 址 也 是 有 意义 
的 ， 因 为 我 们 将 在 12.2 节 看 到 双 栈 主机 上 的 IPv6 服 务 占 能 够 同时 处 
理 IPv6 客 户 和 IPv4 客 户 。 

在 hints 结 构 的 ai_family 成 员 中 指定 的 地 址 族 以 及 在 ai_flags 成 员 中 
指定 的 AI_vV4MAPPED 和 AI_ALL 等 标志 决定 了 在 DNS 中 查找 的 资源 记录 
类 型 (A 和 /或 AAAA) ， 也 决定 了 返回 地 址 的 类 型 (IPv4、IPv6 和 |/ 
或 IPv4 映 射 的 IPv6) 。 图 11-8 对 此 作 了 汇总 。 

主机 名 参数 还 可 以 是 IPv6 的 十 六 进 制 数 串 或 IPv4 的 点 分 十 进 制 数 
串 。 这 个 数 串 的 有 效 性 取决 于 由 调用 者 指定 的 地 址 族 。 如 果 指 定 
AF_INET， 那 就 不 能 接受 IPv6 的 十 六 进 制 数 串 ;， 如 果 指 定 AF_INET6， 
那 惑 不 能 接受 IPv4 的 点 分 十 进 制 数 串 。 然 而 如 果 指 定 的 

是 AF_UNSPEC， 那 么 这 两 种 数 串 都 可 以 接受 ， 返 回 的 是 相应 类 型 的 























套 接 字 地 址 结构 。 


有 人 可 能 会 争论 说 ， 如 果 指 定 了 AF_INET6， 那 么 点 分 十 进 制 数 串 应 
该 作为 IPv4 映 射 的 IPv6 地 址 在 sockaddr_in6 结 构 中 返回 。 然 而 得 到 同样 
结果 男 有 简单 的 方法 ， 就 是 在 点 分 十 进 制 数 串 前 加 .上 6: :ffff:。 
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图 11-8 汇 总 了 getaddrinfo 如 何 处 理 IPvV4 和 IPv6 地 址 。“ 结 果 ” 一 栏 是 
在 给 定 前 三 栏 的 变量 后 ， 该 函数 返回 给 调用 者 的 结 霖 。“ 行 为 ”一 栏 则 说 
明 访 函数 如 何 获 取 这 些 结果 。 
以 sockaddxr in5 人 返回 所 有 AAAA AAAA 5n HIS EA 


调用 考 拒 定 | 调用 者 指定 
的 主机 名 Ip bM. 
isk. VWsockadar_in{} WIA FTA | 记录 搜索 


AF_UNSPEC 记录 
Fou m Ujsockadir ins } inet stor [AF_INET6)} 


carpe 一 个 sockadar in(] inet ztor[AP INET: 


Plaockadir_ins{ iR fTAAAA AAAA iL HES 
记录 


*f:ai flags 77 AL_V4MAPEED ii! JE AAAAU RE, dX, 
下 ， 若 存在 AAAA IUE EL socka- | ERA TRH 
3dz iac: BRI" BEA AA AA oC. TF 
VE DL sockaddr ine {> {Fy [Pus I gp 
(f IPveituhE Uz [HE BE £f A dic o 
Z ai flegs ^t AI vaMAPPZD 和 AAAA V sit 10 de TTE FA 
AI ALLII: F: Lisockadar :n&:) | 记录 搜索 
38 [3 DP fi AAAA ICR, WA 
sockadér inei} fF X IPv4 ok Ay iy 
IPv63h Asis SUPT TTA ae 





dX 









TEE ELM 
Ya 


AF INET6 


Hake | T sockadir. insi) inet stor. {AF INETé! 
"arbo Pe LL rl —-—— —— 
主机 名 Dleockandr int MIB AE | A 记录 搜索 

AF_INET [| zi "3 EUR fd 





nr pit Asuekadir in(] inet stor [AF INET) 








à " EO 一 个 sockadar_ ins|]Hl—4* inet_stor (AF IHETA| 
宅 主 机 名 darme 830000 sockadér in(; 一 inet zton[AP INET: 
| AF INETÉ | 隐 合 [)y:0 -J'sockaddr, insi) inet ztor[AF IHETé) 
| AP OINET | Ex? 0.0.0.0 一 个 sockadar in(] inet ztorIAP INET: 
à T PC d —T'zockadár ins{} 和 一 个 inct ztor;AP INET6| 
n d NUS F 5227127 9.9.1 sockadàr in() inet ztar[AF INET 
Trad - 
主动 ED. T sockadrir_ins{} inet ctor [AF INETe| 
AF INET Mtr 127 9.9. : "d3ockadár in(] inet ztar!AF INET' 


图 11-8 getaddrinfo 函 数 及 其 行为 和 结果 汇总 


图 11-8 仅 仅 说 明 getaddrinfo 如 何 处 理 IPv4 和 IPv6， 也 惑 是 返回 给 调 
用 者 的 地 址 数目 。 返 回 给 调用 者 的 addrinfo 结 构 的 确切 数目 还 取决 于 指 
定 的 套 接 字 类 型 和 服务 名 ， 束 如 图 11-6 总 结 的 那样 。 
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11.10 getaddrinfo 国 数 : 例子 


我 们 将 使 用 一 个 测试 程序 来 展示 getaddrinfo 的 一 些 例 子 ， 该 程序 
允许 我 们 输入 所 有 参数 : 主机 名 、 服 务 名 、 地 址 族 、 套 接 字 类 
型 、AI_CANONNAME 和 AI_PASSIVE 标 志 。 (我 们 没有 给 出 这 个 程序 的 源 文 
件 ， 因 为 它 约 有 350 行 教 益 不 大 的 代码 。 如 前 言 中 所 述 ， 它 作为 本 书 的 
源 代码 提供 。) 该 程序 输出 getaddrinfo 函 数 返 回 的 数目 不 定 的 addrinfo 
言 息 ， 包 括 调 用 socket 所 用 的 参数 以 及 每 个 套 接 字 地 址 结 


我 们 首先 展示 与 图 11-5 同 样 的 例子 。 


freebsd % testga -f inet -c -h freebsd4 -s domain 








SOCket(AF INET, SOCK STREAM, 17), ai canonname - freebsd4.unpbook.com 
address: 135.197.17.100:53 


SOCket(AF INET, SOCK DGRAM, 17) 
address: 172.24.37.94:53 


Socket(AF INET, SOCK STREAM, 6), ai canonname - freebsd4.unpbook.com 
address: 135.197.17.100:53 


SOCket(AF INET, SOCK DGRAM, 6) 
address: 172.24.37.94:53 


其 中 -f inet 选 项 指定 地 址 族 ，-c 表 示 返 回 规 范 主 机 名 ，-h 
freebsd4 指 定 主 机 名 ，-s domain 指 定 服 务 名 。 

常见 的 客户 情形 是 指定 地 址 族 、 套 接 字 类 型 (-t 选 项 ) 、 主 机 名 和 
服务 名 。 下 面 的 例子 展示 了 这 一 点 ， 其 中 主机 名 对 应 一 个 拥有 3 个 IPv4 
地 址 的 多 宿主 机 。 


freebsd % testga -f inet -t stream -h gateway.tuc.noao.edu -s daytime 





SOCket(AF INET, SOCK STREAM, 6) 
address: 140.252.108.1:13 


SOCket(AF INET, SOCK STREAM, 6) 
address: 140.252.1.4:13 


SOCket(AF INET, SOCK STREAM, 6) 
address: 140.252.104.1:13 





接着 指定 的 是 我 们 的 主机 aix， 它 有 一 个 AAAA 记 录 和 一 个 A 记录 。 
我 们 不 指定 地 址 族 ， 不 过 指定 一 个 服务 名 为 ftp， 该 服务 仅 在 TCP 上 提 
d 


ZNO 
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freebsd % testga -h aix -s ftp -t stream 


socket(AF_INET6, SOCK_STREAM, 6) 
address: [3ffe:b80:8d:2:204:acff :fe17:bf38]:21 


SOCket(AF INET, SOCK STREAM, 6) 
address: 192.168.42.2:21 


既然 没有 指定 地 址 族 ， 而 且 本 例子 运行 在 一 个 同时 支持 IPv4 和 IPv6 
的 主机 上 ， 因 此 有 2 个 地 址 结构 返回 : 一 个 是 IPv4 的 ， 一 个 是 IPv6 的 。 


最 后 我 们 指定 AI_PASSIVE 标 志 〈-p 选 项 ) ， 但 是 不 指定 地 址 族 ， 世 
不 指定 主机 名 〔( 隐 舍 使 用 通 配 地 址 ) ， 另 外 指定 端口 号 为 8888， 套 接 字 


类 型 为 SocK_STREAM。 





freebsd % testga -p -s 8888 -t stream 


SOCket(AF INET6, SOCK STREAM, 6) 
address: [::]:8888 


SOCket(AF INET, SOCK STREAM, 6) 
address: .0:8888 


本 例子 返回 2 个 结构 。 既 然 我 们 是 在 一 个 同时 文 持 IPv6 和 IPv4 的 主 
机 上 运行 本 例子 ， 又 没有 指定 地 址 族 ，getaddrinfo 返 回 的 是 IPv6 通 配 地 
址 和 IPv4 通 配 地 址 。IPv6 地 址 结构 早 于 IPv4 地 址 结构 返回 ， 因 为 我 们 将 
在 第 12 章 看 到 ， 双 栈 主 机 上 的 IPv6 客 户 或 服务 器 既 能 与 IPv6 对 端 通 信 ， 
也 能 与 IPv4 对 端 通信 。 


11.11 host _servek ži 


访问 getaddrinfo 的 第 一 个 接口 函数 不 要 求 调用 者 分 配 并 填写 一 
个 hints 结 构 。 该 结构 中 我 们 感 兴趣 的 两 个 字段 〈 地 址 族 和 套 接 字 类 型 ) 
成 为 这 个 名 为 host_serv 的 接口 函数 的 参数 。 


#include "unp.h" 


struct addrinfo *host serv(const char *hostname, const char *service, 
int family, int socktyp 


e); 
返回 : Ico Aria ddr infog BRAT, rdi DU NULL 
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图 11-9 是 这 个 函数 的 源 代码 。 





'ibihost serv.c 


1 &include "ur.p. h" 
2 struct addrinzc * 
3 hosc_serv(const char *host. const char *serv, int family, irt socktype) 
å í 
Ss int nt 
6 SBZxucz addrinfo hints, *res; 
7 bzero(&hints, sizeof (struct addr-nfc 
hints.ai flaco = AI CANONNANE;  /* AS return canonical name */ 
9 hints.&i fsmily - family: /* AP UNCPBC, AP INET, AF INEIG, etc. */ 
10 hints.ai sacktype = BOCk-ype: f* 6, SSCK_ATREAM. SOCK DGRAM, ete. */ 
it ( (n = getacdrintcihoot, serv, Saints, &rco5); !- 9) 
return (MULL) ; 
13 raturn!res): /* returzr pointer to first on linked list */ 
14 : 


hibvhos! servic 


图 11-9 host_servek ži 


7-13 ARB eat hintszitj. WH getaddrinfo, Æ H 4E N 
返回 一 个 空 指针 。 


我 们 将 在 图 16-17 中 调用 本 函数 ， Se he e 
用 getaddrinfo 获 取 主 机 和 服务 信息 ua 又 想 HE e gu 连接 。 


11.12 tcp connect Pj 2 


现在 我 们 编写 使 用 getaddrinfo 处 理 TCP 客 户 和 服务 器 大 多 数 情 形 的 
两 个 函数 。 第 一 个 函数 即 tcp_connect 执 行 客户 的 通常 步 又 : 创建 一 个 
TCP 套 接 字 并 连接 到 一 个 服务 器 。 


#include "unp.h" 
int tcp_connect(const char *hostname, const char *service); 


: 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返 








n 
LH 

















返 
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图 11-10 是 该 函数 的 源 代码 。 





dbficp comeci.c 


1 #incluåe "uup.l* 
2 int 
3 tcp cornect;cono- char *host, ccnot char *cerv) 
4 i 
5 int acockfd, n; 
€ etruct atdrinfe hints, "res, *ressave; 
7 bzero(&hints, 3izeof(struct addrinfo) yi 
6 hints.a: family = AP UNSPEC; 
LI hints a- wsccktype = SOCK STREBM; 
LO if ( (n - getaóddrinfo!host, serv, ehints, &res)) l- 0) 
1i err_quit ("tep_connest crror for ts, io: bot, 
12 host, serv, gai strerror(u!); 
13 resszve - res; 
14 do Í 
15 sockEd = socket (res->ai_family, res-»ai sockcype,. res--»al protocol): 
1é if 'sovkfd < 0) 
L7 continue: /* ignore this one */ 
1 it \conmnectisockta, rco »ai addr, rc5 »ài addricn) == 0) 
19 zreax, j* success */ 
20 Clase fsck Td! » /* tynore this one Pf 
22 ) while ( (res ~ res->ai next) !- NULL): 
22 iz (rec -- NULL) /* errno oct from zinzl connest() */ 
23 err sysi"tcp connsct error for $s, $3", host. serv'; 
24 f "eesdürinfao(ressgaur! ; 
25 return(soc«fda); 
] 


libficp conneci.c 


图 11-10 tep_connect PRL: 执行 客户 的 通常 步骤 


调用 getaddrinfo 


7-13 ”调用 getaddrinfo 一 次 ， 指 定 地 址 族 为 AF_uNSPECc， 套 接 字 类 
型 为 Sock_STREAM。 


尝试 每 个 addrinfo 结 构 直 至 成 功 或 到 达 链 表 尾 


14-25 “和 莹 试 getaddrinfo 返 回 的 每 个 了 地 址 ， 针 对 它们 调用 socket 
和 connect。socket 调 用 失败 不 是 致命 的 错误 ， 因 为 如 果 返 回 地 址 中 有 
IPV6 地 址 而 主机 内 核 并 不 支持 IPvV6， 这 种 失败 就 可 能 发 生 。 如 果 connect 
成 功 ，break 语 句 将 跳出 循环 。 否 则 演 试 完 所 有 地 址 后 ， 循 环 也 终 
止 。freeaddrinfo 把 所 有 动态 分 配 的 内 存 空间 返 送 回 系统 。 
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一 旦 getaddrinfo 失 败 或 者 connect 调 用 没有 一 次 成 功 ， 本 函数 〈 以 
及 将 在 以 下 各 节 中 讲解 的 getaddrinfo 的 其 他 简单 接口 函数 ) 将 终止 。 
它们 只 是 在 成 功 时 才 返 回 。 这 些 函 数 不 另 加 一 个 参数 难以 返回 错误 码 
( 某 个 EAI_xxx 常 值 )。 这 意味 着 它们 的 包 里 函数 无 所 事 事 。 








int 
Tcp connect(const char *host,const char *serv) 


return(tcp connect(host, serv)); 


尽管 如 此 ， 为 了 保持 全 书 的 一 致 性 ， 我 们 照样 使 用 包 囊 函数 而 不 
是 tcp_connect。 

返回 值 的 问题 在 于 描述 符 是 非 负 的 ， 但 是 我 们 不 清楚 EAI_xxx 是 正 
的 还 是 负 的 。 如 果 这 些 值 是 正 的 ， 那 么 我 们 可 以 在 getaddrinfo 失 败 时 
返回 这 些 值 的 负 值 ， 然 而 我 们 还 得 返回 另外 某 个 负 值 以 表明 所 有 结构 都 
己 无 一 成 功 地 尝试 完毕 。 


例子 : 时 间 获 取 客 户 程序 


图 11-11 是 把 图 1-5 中 的 时 间 获 取 客 户 程序 重新 编写 成 使 
用 tcp_connect 的 结果 。 











nomes/daytimeicpeli.c 


1 inc lite "urp.h" 

2 int 

3 nain!inz argo, char **axqw; 

EH i 

5 int sockfd, n; 

6 cnar rezvline[MAXLINE + 1]; 

? sccklen t len, 

a Sire &ockacdr at arage AR; 

a if (arge != 3; 

10 err cuit 

11 ("usage daycimet-pc-i «hos-name/IPacdress» <service/port#>") ; 
12 scekfd = Tep_comiect (argy [1]. arugv:2]!; 

13 len = &eizeot(sE;; 

14 Getocername (socktd, (SA *)46s, Sian) ; 

15 print£i"conmected to *s\n",. Sock_ntcp_host/(SA ~)&ss, len)'; 
16 wiile | in = Read{soackfd, vreevline, MAXLINE!) > C) i 

17 recvline[n] = 2; /* rull terminate */ 

18 Fputs(recvline, stdout! ; 

19 } 

29 exitio): 


nomesidavtimeicpelic 














图 11-11 用 tcp_connect 重 新 编写 的 时 间 获 取 客 户 程序 
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9-11 ”我 们 需要 为 一 个 命令 行 参 数 来 指定 服务 名 或 端口 写 ， 它 允许 
本 程序 连接 到 其 他 端口 。 


XE Be UH A d 
i2 本 客户 程序 的 所 有 套 接 字 代 码 现 由 tcp_connect 执 行 。 
显示 服务 器 地 址 


13-15 ”我 们 调用 getpeername 取 得 服务 器 的 协议 地 址 并 显示 出 来 。 
这 么 做 是 为 了 在 后 面 的 例子 中 验证 所 用 的 协议 。 


注意 ，tcp_connect 并 不 返回 内 部 connect 用 到 的 套 接 字 地 址 结构 大 
小 。 我 们 可 以 增设 一 个 指针 参数 来 返回 该 值 ， 然 而 本 函数 的 设计 目标 之 
一 却 是 相 比 getaddrinfo 减 少 参数 的 数目 。 于 是 我 们 改 用 一 
个 sockaddr_storage 套 接 字 地 址 结构 ， 它 大 得 足以 存放 系统 支持 的 任何 
套 接 字 地 址 类 型 ， 又 能 满足 它们 的 对 齐 限制 。 











这 个 版 本 的 客户 程序 同时 支持 IPv4 和 IPv6， 而 图 1-5 中 的 版 本 只 支持 
IPV4， 图 1-6 中 的 版 本 只 文 持 IPvV6。 你 还 应 该 对 比 这 个 新 版 本 和 图 E.12 中 
的 版 本 ， 后 者 编写 成 使 用 gethostbyname 和 getservbyname 以 同时 支持 
IPvARIIPv6. 


我 们 首先 指定 一 个 只 文 持 IPv4 的 主机 名 。 


freebsd % daytimetcpcli linux daytime 
connected to 206.168.112.96 
Sun Jul 27 23:06:24 2003 


我 们 接着 指定 一 个 同时 文 持 IPv4 和 IPv6 的 主机 名 。 


freebsd % daytimetcpcli aix daytime 
connected to 3ffe:b80:8d:2:204:acff :fe17:bf 38 
Sun Jul 27 23:17:13 2003 


本 例子 实际 使 用 IPv6 地 址 的 原因 在 于 : 该 主机 既 有 一 个 AAAA 记 录 
又 有 一 个 A 记 录 ， 而 tcp_connect 把 地 址 族 设 为 AF_UNSPEC， 根 据 图 11-8， 
首先 搜索 的 是 AAAA 记 录 ， 然 后 搜索 的 是 A 记录 ，connect 顺 序 靠 前 的 
IPVv6 地 址 一 旦 成 功 ，tcp_connect 就 不 再 尝试 connect 顺 序 靠 后 的 IPv4 地 
Is 


在 下 一 个 例子 中 ， 我 们 通过 指定 带 -4 后 绥 的 主机 名 来 强制 使 用 IPv4 
2s 我 们 已 在 11.2 市 指出 这 是 我 们 对 于 只 有 A 记录 的 主机 名 的 约定 命 





freebsd % daytimetcpcli aix-4 daytime 
connected to 192.168.42.2 
Sun Jul 27 23:17:48 2003 
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11.13 tcp _listenrh 2 


下 一 个 函数 即 tcp_listen 执 行 TCP 服 务 器 的 通常 步 又 : 创建 一 个 
TCP 套 接 字 ， 给 它 捆绑 服务 器 的 众所周知 端口 ， 并 允许 接受 外 来 的 连接 
请 求 。 图 11-12 是 它 的 源 代 码 。 


lib/top. Nen.c 
1 #include "ur. h" 
2 int 
3 top liscen(const caar *host, const char *serv, scexlan t *acdr.enp] 
4{ 
5 int listenfd, 3; 
5 ccnst int on - 1; 
7 estrac addrirt2 hints, *res, *reesave; 
8 bzero(&hints, sizesf (struct addrinfe]!; 
$ hints.ai flags = AI FASSIVE; 
hinrs.4i_femily = AF UNSC; 
il hintc.zi cocktype = SOCK STREAM; 
12 if ( (n = getazZdr-nfc host. serv, &nints, &res}! !- ð) 
13 err suit("tep listen error for $s, Xs: 4s", 
14 host, ocry, gai ctrerror(ni); 
5 ressave - res, 
16 dc { 
17 listenfd = 
18 BOcket(ree-»ai family, rez-»ai eocktype, reg-»ai protcc-l!; 
19 i= (listenfd < G) 
20 continue; /* erzüu-, try next one */ 
21 Setsockopt(lis-enfd, SOL SOCK=T, SO_REUSEADDR, &on, sizeof icnt); 
32 a= [bind(listentd, res-»-ai addr, res--si addrlen; — Cj 
23 bzsak, /* success */ 
24 Close (1l-stenfd) ; /* bind error, close and t-y next one */ 
25 } while i (res = reg-»ai next) != MULL); 
a6 it (res -- NOLL; /* errno from final socket() cr bindi) */ 
a7 err sys|"tcp listen error for $5, ts", host, serv); 
z8 Listenilisterfi, LISTENO} ; 
29 if (add lenp} 
40 *acdrlanp = res--al_addrlen; /* return size of protoccl address */ 
31 fresadd-info(rsssave!; 
32 returniliscenfs; ; 
33 . 
vp listene 


图 11-12 tcp listenPAZ&k: 执行 服务 器 的 通常 步 又 


#include "unp.h" 


int tcp listen(const char *hostname, const char *service, socklen t *addrlenp); 











可: 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返回 











Es 























调用 getaddrinfo 


8-15 ”初始 化 一 个 addrinfo 结 构 提 供 如 下 暗示 信 
A: AI_PASSIVE《〈 因 为 本 函数 供 服务 器 使 用 ) . AF uNsPEC Cb 
WR) 、SocK_STREAM。 回 顾 图 11-8， 如 果 不 指 定 主机 名 〈 对 于 想 捆绑 通 配 
地 址 的 服务 器 通常 如 此 ) ，AI_PASSIVE 和 AF_UNSPEC 这 两 个 暗示 信息 将 会 
返回 两 个 套 接 字 地 址 结构 : 第 一 个 是 IPv6 的 ， 第 二 个 是 IPv4 的 (假定 运 
行 在 一 个 双 栈 主机 上 ) 。 


创建 套 接 字 并 给 它 捆绑 地 址 

16-25 ”调用 socket 和 bind 函 数 。 如 果 任 何 一 个 调用 失败 ， 那 就 忽略 
当前 addrinfo 结 构 而 改 用 下 一 个 。 正 如 7.5 节 中 声明 的 那样 ， 对 于 TCP 服 
务 器 我 们 总 是 设置 So_REUSEADDR 套 接 字 选项 。 
检查 是 否 失败 

26~27 ”如 果 针 对 每 个 地 址 结构 的 socket 调 用 和 bind 调 用 都 失败 ， 我 
们 就 显示 一 个 出 错 消 奶 并 终止 。 束 像 前 一 节 的 tcp_connect 函 数 一 样 ， 
本 函数 也 不 会 试图 返回 这 种 错误 。 

28 调用 listen 使 得 当前 套 接 字 变 成 一 个 监听 套 接 字 。 
返回 套 接 字 地 址 结构 的 大 小 

290-32 如果 addrlenp 参 数 非 空 ， 我 们 束 通 过 这 个 指针 返回 协议 地 址 


的 大 小 。 这 个 大 小 允许 调用 者 在 通过 accept 获 取 客 户 的 协议 地 址 时 分 配 
一 个 套 接 字 地 址 结构 的 内 存 空 间 。〔( 男 见习 题 11.7。) 


11.13.1 例子 : 时 间 获 取 服 务 喜 程序 


图 11-13 是 把 图 4-11 的 时 间 获 取 服 务 吉 程序 重新 编写 成 使 
用 tcp_listen 的 结果 。 





























namesidavtimetcpsrvd.c 





1 £ircluze "unp.h* 

4 fincluce <time.h> 

2 int 

4 main(irt argc, char **argv) 

€ int l-stenfd, conntc: 

7 socklen t len; 

£ char muff [NAXLINE] ; 

9 time t ticks; 

10 struct socxaddr storage cliaddr; 

11 i* (arge != 2) 

12 err quit("usagc: saytimetcpsrvl <scrvice or portes"); 
13 list.enfd = 7 gx isceni(NUITD, argv ,1), MME); 

14 ro (b sz D 

15 len = sizeofíclia2dr!; 

1é canmnfd = Accept(listenfd, (SA *j&cliadór, &len!; 

17 zrinzf("connectior Erom ¢s\n', Sock ntcp(;SA *!&cliadzr, 1en2)!; 
14 hicks = zire (NULL); 

19 anprintf (buff, sizecf(buff). "&.24s\r\n", ctimei&ticks)); 
20 Write;conntd, buff, sg-rlen'butf;); 

21 C^ ose Lenin r) ; 

23 } 

23 ] 


图 11-13 ”用 tcp_listen 重 新 编写 的 时 间 获 取 服 务 器 程序 ( 另 见 图 11-14) 

服务 名 或 端口 号 需 作 为 命令 行 参 数 

11-312 ”我 们 需要 一 个 命令 行 参数 来 指定 服务 名 或 端口 号 。 这 样 更 
便于 测试 本 服务 嚣 程序， 因为 给 标准 daytime 服 务 器 捆绑 端口 13 需 要 超 
级 用 户 特权 。 
创建 监听 套 接 字 

13 ”tcp_listen 创 建 监 昕 套 接 字 。 作 为 第 三 个 参数 传递 给 该 函数 的 
是 一 个 空 指针 ， 因 为 我 们 并 不 关心 当前 地 址 族 在 使 用 多 大 大 小 的 地 址 结 
构 ， 我 们 将 使 用 sockaddr_storage。 
服务 器 循环 

14-22 ”accept 等 待 每 个 客户 连接 。sock_ntop 用 于 输出 客户 的 地 


址 。 无 论 是 IPv4 还 是 IPv6， 该 函数 都 会 显示 了 地址 和 端口 号 。 我 们 可 以 
使 用 getnameinfo 函 数 〈11.17 节 ) 尝试 获取 客户 主机 的 主机 名 ， 不 过 这 











将 涉及 DNS 中 的 PTR 记 录 查 询 ， 而 PTR 查 询 需 花 一 段 时 间 ， 特 别 是 在 查 
询 失 败 的 情形 下 。TCPv3 的 14.8 节 指出 : 在 一 个 繁忙 的 Web 服 务 器 主机 
上 ， 与 之 建立 连接 的 所 有 客户 主机 中 没有 PTR 记 录 的 几乎 占 25%。 既 然 
不 想 让 服务 器 (特别 是 迭代 服务 器 就 为 PTR 查 询 等 待 数秒 钟 ， 我 们 于 
是 直接 显示 IP 地 址 和 端口 号 。 


11.13.2 ”例子 : 可 指定 协议 的 时 间 获 取 服 务 器 程 
序 


图 11-13 中 的 程序 存在 一 个 小 问题 : tcp_listen 的 第 一 个 参数 是 一 个 
空 指针 ， 而 且 由 tcp_listen 内 部 指定 的 地 址 族 为 AF_UNSPECc， 两 者 结合 5 
能 导致 getaddrinfo 返 回 非 期 望 地 址 族 的 套 接 字 地 址 结构 。 举 例 来 说 ， 
在 双 栈 主机 上 返回 的 第 一 个 套 接 字 地 址 结构 将 是 IPv6 的 (图 11-8) , 18 
是 我 们 可 能 希望 该 服务 器 仪 仪 处 理 IPv4。 


客户 程序 没有 这 样 的 问题 ， 因 为 客户 总 得 指定 一 个 下地 址 或 主机 
名 。 客 户 程序 通常 允许 用 户 作 为 命令 行 参数 输入 它 。 我 们 于 是 有 机 会 指 
定 一 个 与 特定 类 型 的 IP 地 址 关联 的 主机 名 (回顾 11.2 节 带 -4 或 -6 后 级 的 
主机 名 ) ， 或 者 要 么 指定 一 个 IPv4 的 点 分 十 进 制 数 串 〈 以 强制 使 用 
IPv4) ， 要 么 指定 一 个 IPv6 的 十 六 进 制 数 串 〈 以 强制 使 用 IPv6) 。 
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然而 有 一 个 简单 的 技巧 允许 我 们 强制 服务 器 使 用 某 个 给 定 的 协议 

或 为 IPvV4， 或 为 IPv6: 允许 用 户 作 为 程序 的 命令 行 参数 输入 一 个 IP 
地 址 或 主机 名 ， 并 把 它 传 递 给 getaddrinfo。 如 果 输 入 的 是 IP 地 址 ， 那 么 
IPv4 的 点 分 十 进 制 数 串 不 同 于 IPv6 的 十 六 进 制 数 串 。 对 于 inet_pton 的 如 
下 调用 将 如 下 所 示 地 成 功 或 失败 。 





inet pton(AF INET, ".0", &foo); /* succeeds */ 
inet pton(AF INET, "0::0",&foo); /* fails */ 
inet pton(AF INET6, ".0", &foo); /* fails */ 
inet pton(AF INET6, "0::0",&foo); /* succeeds */ 


因此 ， 如 果 把 我 们 的 服务 器 程序 改 为 能 够 接受 一 个 可 选 的 参数 ， 那 
是 键入 


么 要 是 键 


% server 


在 双 栈 主机 上 就 默认 为 使 用 IPv6， 但 是 键入 


% server .0 


则 显 式 指定 使 用 IPv4， 键 入 


% server 0::0 


则 显 式 指定 使 用 IPv6。 
图 11-14 是 我 们 的 时 间 获 取 服 务 器 程序 的 最 终 版 本 。 


namesidatimetepsrv2.c 





1 include "up. h" 
2 #incluse ztime.hs 


i int 

4 main(int argc, char **arav] 

51 

t int ltstenfd, connft; 

7 Sockler t len; 

6 char Duff [NAXLINE ; 

5 Lime t t ocka; 

1U struct socxa3dr storage cliaddr; 

11 ii (argc == 2) 

12 listenfd = Tcp listen(N"L., argv[i], &addrlen); 

13 else if (arg- == 3) 

14 上 -eteantd = Top iieten(arqv,1], arqv[3], &addrlen;; 

15 else 

16 el r gait ("usage: daytimetepsary? | ehcst» ] eaervice ar sorts"); 
17 for (Xx 094 

1s len = cizeot (clia3dr|; 

15 connfd = Accept(listenfd, ‘SA *'&cliadir,. aleni; 

20 zrin-zf("cunnectior from ts\n", Sock atop (SA *i&cliadir, 1e:)!; 
21 ticks = -ime(NULL); 

22 Snprintf (butt, sizect (butt), "8.24e\r\n", ctime!aticks)) ; 
22 Write ‘connid. buff, s-rlen'/buff!), 

24 7^ ose Lunnntd? 

25 ) 

26 ] 


namesidaytimeicpsevi.c 


图 11-14 ”使 用 tcp_listen 的 协议 无 关 时 间 获 取 服务 器 程序 
处 理 命令 行 参 数 


11-16 “与 图 11-13 相 比 唯一 的 改动 是 对 命令 行 参数 的 处 理 ， 除 了 服 
务 名 或 端口 号 外 ， 新 版 本 允许 用 户 指 定 一 个 主机 名 或 耳 地址 供 服务 器 搁 
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地 子 网 的 男 外 两 个 主机 上 的 客户 回 该 服务 占 发 起 连接 。 


freebsd % daytimetcpsrv2 .0 9999 
connection from 192.168.42.2:32961 
connection from 192.168.42.3:1389 





接着 以 一 个 IPv6 套 接 字 启动 服务 器 。 


freebsd % daytimetcpsrv2 0::0 9999 

connection from [3ffe:b80:8d:2:204:acff:fe17:bf38]:32964 
connection from [3ffe:b80:8d:2:230:65ff:fe15:caa7]:49601 
connection from [::ffff:192.168.42.2]:32967 

connection from [::ffff:192.168.42.3]:49602 


第 一 个 连接 来 自主 机 aix 并 使 用 IPv6， 第 二 个 连接 来 自主 机 macosx 
并 使 用 pv6: 随后 两 个 连接 同样 来 自主 机 aix 和 macosx， 不 过 使 用 IPv4 而 
e IH 这 是 因为 由 accept 返 回 的 这 两 个 客户 的 地 址 都 是 IPv4 映 射 的 
IPv67 


我 们 刚才 已 经 展示 : 运行 在 双 栈 主机 上 的 IPv6 服 务 器 既 能 够 处 理 
IPv4 客 户 ， 也 能 够 处 理 IPv6 客 户 。 正 如 12.2 节 将 讨论 的 那样 ，IPv4 客 户 
主机 的 地 址 作为 IPv4 映 射 的 IPv6 地 址 传递 给 IPv6 服 务 器 。 








11.14 udp client A žk 


访问 getaddrinfo 的 较 简 单 接口 函数 对 于 UDP 情形 有 所 改变 ， 即 客 
户 函数 演变 成 两 个 ， 一 个 是 本 节 讲解 的 用 于 创建 未 连接 UDP 套 接 字 的 
udp_client 汶 数 ， 另 一 个 是 下 一 节 讲 解 的 用 于 创建 己 连 接 UDPp 套 接 字 的 
udp. connect PA ZA, 





#include "unp.h" 


int udp client(const char *hostname, const char *service, 
struct sockaddr **saptr, socklen t *lenp); 








出 错 则 不 返回 








Bs 若 成 功 则 为 未 连接 套 接 字 描述 符 ， 


让 











Es 
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本 函数 创建 一 个 未 连接 UDP 套 接 字 ， 并 返回 三 项 数据 。 首 先 ， 返 回 
值 是 该 套 接 字 的 描述 人 符 。 其 次 ，saptr 是 指 同 某 个 (由 udp_client 动 态 分 
配 的 ) 套 接 字 地 址 结构 的 〈 由 调用 者 自行 声明 的 ) 一 个 指针 的 地 址 ， 本 
函数 把 目的 耳 地 址 和 端口 存放 在 这 个 结构 中 ， 用 于 稍 后 调用 sendto。 最 
后 ， 这 个 套 接 字 地 址 结构 的 大 小 在 lenp 指 向 的 变量 中 返回 。lenp 这 个 结 
尾 参 数 不 能 是 一 个 空 指 针 (而 tcp_listen 人 允许 其 结尾 参数 是 一 个 空 指 
， 因 为 任何 sendto 和 recvfrom 调 用 都 需要 知道 套 接 字 地 址 结构 的 长 


图 11-15 给 出 了 这 个 函数 的 源 代码 。 








vedo clieni.c 





#include "urp.hi" 

nt 

udp client (const caar *host, const char *serv, SA **saptrz, socklen t *lenp) 
int so-kfd, n; 
sir addrinfs hints, *res, *r=ssave; 


bzero(&khints, Eizeof(etruct addr:nfc]!; 
hints.ai_family = AP UNSPEC; 
hiuLs.ei sockLype = SOCK DGRAM: 
if ( iri = 
err zuit("oudp client error for te, Yr: $27, 
host, serv, gai strerrcr(n!):; 
ressave = ree; 


getacdr:nfolhust, seru, &:ints, &res))} |= 0) 


dc { 
sockfd - scckezizes-»ai fanily, res--ai_socktype, <es->38i_prosocol) ; 
i^ ([sockfd >s 4) 
break; /* success */ 
| while | (res = ras->ai next) l= MULL); 


if (res zz NOM, /* erran set Crom final sock-t() =«/ 
err sva{"udp client error for ts, ts", hcs-, serv); 


*saptr = Malloc(res- sai_addrlen) ; 

menopy (saple, rex-»4) adds, res-»aj adüdrlen): 
*lenp ~ res->ai_addrien; 
fresadd-info(rsssave); 

raturnisockfd,; 


hibinde: clinic 


图 11-15 udp_client 函 数 : 创建 一 个 未 连接 UDP 套 接 字 


getaddrinfo 用 于 转换 hostname 和 service 参 数 。socket 用 于 创建 一 个 


数据 报 套 接 字 。malloc 用 于 分 配 一 个 套 接 字 地 址 结构 的 内 存 空 间 ， 并 
由 memcpy 把 对 应 所 创建 套 接 字 的 地 址 结构 复制 到 这 个 内 存 空 间 中 。 


例子 :协议 无 关 时 间 获 取 客户 程序 








我 们 现在 把 图 11-11 中 的 时 间 获 取 客 户 程 序 重 新 编写 成 改 用 UDP 和 


udp_client 冰 数 。 图 11-16 给 出 了 这 个 协议 无 关 程 序 的 源 代码 。 
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imnzmiesidaytimeudecli.c 





1 fiucluce "up. i 

2 int 

3 main(int args, char **arawv] 

4{ 

5 int scckfü, n; 

& char rscv.ine MAXLINE + 1); 

7 socklen t salen; 

6 struct sockaddr *sa; 

E i: (arze != 3) 

10 err quit 

11 (*usagc: daytincudpslil <hostnam:/IPaddress> <service/pors#>" H; 
12 sockfd = Udp clien-iargv[1], argví2], (void **) Ssa, &selen): 

13 print’ (*sending to s\n", Sock ntop host (sa, salen)): 

14 Sendto(ssexfad, "*, 1, 0, Ea, Salen); /* send i-byte datagram */ 
15 n = Recvfron(scckfd, recvlire, MAXLINE, C. NULL, NULL); 

16 reczline[n] = '\0'; /* nn'l terminate */ 

17 Fputs(revcvlirws, stdout;; 

is exit (0); 

19 ] 


ancmesidavtimeudpbclil.c 





图 11-16 ”使 用 udp_client 的 UDP 时 间 获 取 客 户 程序 


12-17 “我们 调用 udp_client 函 数 ， 然 后 显示 将 回 其 发 送 UDP 数 据 报 
oe 口号 。 发 送 一 个 1 字 节 的 数据 报 后 读 取 并 显示 应 


实际 上 我 们 只 需要 发 送 一 个 0 字 市 的 UDP 数 据 报 ， 因 为 来 自 标准 
daytime 服 务 器 的 啊 应 只 靠 数 据 报 的 到 达 触 发 ， 而 与 其 长 度 或 内 容 无 
天 。 然 而 许多 SVR4 实 现 却 不 允许 0 长 度 的 UDP 数据 报 。 


我 们 首先 指定 拥有 一 个 AAAA 记 录 和 一 个 A 记 录 的 某 个 主机 名 运行 
本 客户 程序 。 既 然 由 getaddrinfo 首 先 返回 的 是 对 应 AAAA 记 录 的 结构 ， 
所 创建 的 是 一 个 IPv6 套 接 字 。 


freebsd % daytimeudpclii aix daytime 
sending to 3ffe:b80:8d:2:204:acff:fe17:bf38 
Sun Jul 27 23:21:12 2003 








我 们 接着 指定 同一 个 主机 的 点 分 十 进 制 数 串 地 址 ， 结 果 创 建 的 是 一 
个 IPv4 套 接 字 。 


freebsd % daytimeudpcli1 192.168.42.2 daytime 
sending to 192.168.42.2 
Sun Jul 27 23:21:40 2003 
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11.15 udp connect Pj 2 


udp_connect 函 数 创 建 一 个 已 连接 UDP 套 接 字 。 


#include "unp.h" 


int udp_connect(const char *hostname, const char *service); 





返回 : 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返 





Hu 

















有 了 已 连接 UDP 套 接 字 后 ，udp_client 必 需 的 结尾 两 个 参数 就 不 再 
需要 了 。 调 用 者 可 改 用 write 代替 sendto， 因 此 本 函数 不 必 返 回 一 个 套 
接 字 地 址 结构 及 其 长 度 。 


图 11-17 是 本 函数 的 源 代码 。 


libvudp_connect.c 





1 $&incliuxie "ur p.h" 

2 tnt 

3 udp_connect [const char *hoot, const canar *oerv) 

4: 

5 int sorkfd, n; 

6 Struct addrinfs hints, *res, *reesave; 

7 bzero(G&hints, sizeof (struct addr:nfcl!; 

8 hints.ai_femily = AF UNSPEC; 

9 hinrs.ai_socktype s SOCK DGRAM: 

10 it ( (n - getazdr-nfc;host. serv, Saints, &res), !- O0) 

il err quit("udp connect errcr for $5, ts: is", 

12 host, serv, gai strerrcrínl!):; 

13 ressave = rec; 

14 de { 

15 sockfd = sccke-ices-»5i fanily, res-sai_socktype, -es-»5i pro-ocol); 
16 i” (sockfd < 01 

17 continue; /* ignore this one */ 

18 i= (connect |cockid, r2£-»a- addr, rec-»ai addrlen) == 0) 
19 zeak; /* success */ 

20 Close (asockfd!; /* ignore th:s zne */ 

al } while | (res - ras->ai next) !- NULL); 

z2 iE (res == NULL; /* errno ect trom final connzct;) */ 
23 er sys["udp connect error for $5, $s", host, servi; 

24 freeads infalressaue) ; 

45 raturn | sock} ; 

26 : 


libudp coméci.c 








图 11-17 udp_connect eet: 创建 一 个 已 连接 UDP 套 接 字 


本 函数 几乎 等 同 于 tcp_connect。 两 者 的 差别 之 一 是 UDP 套 接 字 上 
的 connect 调 用 不 会 发 送 任何 东西 到 对 端 。 如 果 存 在 错误 “〈 壁 如 对 端 不 
可 达 或 所 指定 端口 上 没有 服务 器 ) ， 调 用 者 就 得 等 到 向 对 端 发 送 一 个 数 
据 报 之 后 才能 发 现 。 
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11.16 udp server PA 2X 


用 于 简化 访问 getaddrinfo 的 最 后 一 个 UDP 接口 函数 是 udp_server。 


#include "unp.h" 


int udp server(const char *hostname, const char *service, socklen t *lenptr); 











返回 : 若 成 功 则 为 未 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返回 














本 函数 的 参数 与 tcp_listen 一 样 ， 有 一 个 可 选 的 hostmhame 和 一 个 必 
需 的 service〈 从 而 可 捆绑 其 端口 号 ) ， 以 及 一 个 可 选 的 指向 某 个 变量 的 
指针 ， 用 于 返回 套 接 字 地 址 结构 的 大 小 。 


图 11-18 给 出 本 函数 的 源 代码 。 





lib/uap: server.c 





1 #include "uap.h" 


2 int 

5 udp server (const. char *bost, coss char *seru, si cklen t *acdr ^ snp) 

4 | 

5 int sockfd, n; 

5 struct addrinfe hints, *res, *ressave; 

7 bzero(&hints, sizeof(struct acdrinfc)!; 

8 hints.ai_tlags - AI CASSIVE; 

9 hincs.ai_family = AP UNSPRC; 

Lo hinte.ai sccktypa = SOCK DGRAM; 

Li if ( (r = ceraddrinfo(nosc, serv, &hints, eres)) !- 0) 

12 err quit('udp ssrver error for ts, $3: $s', 

13 hcst, serv, cai strerrorín!): 

14 rescsve = reo; 

15 do { 

16 sockfd = socket(res-»ai family, res-»ai sockzype. ves3->ai_ protocol); 
17 if ;sockfd < o! 

18 continue; /* error try next one */ 

19 if |z-nd(sockfd, res->ai addr, -eg-»a- addrlen| == t; 

20 break; /* success */ 

21 cizse[socktfd); /* bind error - close anc try next one */ 
22 ] while ( (rss = res-»ai rext) !- NULL); 

25 if (res zz MILL) /* e-rna from final saccket() or snd) */ 
24 err sys'"udGp server error for ts, ts", hest, serv); 


if (adérlenp) 


26 *addriens - zes--&l addrlen,; /* return size of protoccl address */ 
27 treccdcrinto(rcocave!; 

28 return (sockf3) ; 

29 ] 


libfuap server.c 





图 11-18  udp serveriK Zi: 为 UDP 服务 器 创建 一 个 未 连接 套 接 字 
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除了 没有 调用 1isten 外 ， 本 函数 几乎 等 同 于 tcp_Listen。 我 们 把 地 
址 族 设 置 成 AF_UNSPEC， 不 过 调用 者 可 以 使 用 我 们 随 图 11-14 讲 解 的 同样 
技巧 来 强制 使 用 某 个 特定 协议 〈IPv4 或 IPv6) 。 


对 于 UDP 套 接 字 我 们 不 设置 so_REUSEADDR 选 项 ， 因 为 正如 7.5 节 所 
述 ， 本 套 接 字 选项 允许 在 支持 多 播 的 主机 上 把 同一 个 UDP 端口 捆绑 到 多 
个 套 接 字 上 。 既 然 UDP 套 接 字 没有 TCP 的 TIME_WAIT 状 态 的 类 似 物 ， 
启动 服务 器 时 就 没有 设置 这 个 套 接 字 选项 的 必要 。 


例子 : DAER TA) SRR A as FE PP 


图 11-19 给 出 修改 自 图 11-14， 改 用 UDP 的 时 间 获 取 服 务 器 程序 。 


ra mes/daytiineudpsnmvz.c 


1 $include "ur.p. h" 
2 finclude <time.h~ 


3 


4 main!inz argc, char **aray! 


ur 


iat sockfd; 
o3:2e t n; 

caar buff [MAXLINE] ; 
tine 5 ticks; 


eccklen t ler; 
struc- sockacdr storage  c--iaddr; 


iÉ (argc == 2} 
sockfd = Udp server(WULL, argv[1], NULL); 
eles if large <= 3) 
sockfd = Udp serverlargv 1]. argv[2], NULL); 
else 
err quit ("usage: daytimeudpsry [ «host» ] «service or pores"); 


reujibki 
ler = sizecf(cliaddr' ; 
n m Recvfroii(sockfd, buff, MAXLTNE, C, [SA *)&cliedór, Slen); 
printz(*'dacagram from $&s*n*, Sock ntop( {SA *)acliaddr, len)); 
ticks = timre(NULL): 
snprintf(buff, sizeof (buff), "$.24s'r^n*, ctime'&ticksl): 
Serdto(scc«fd, buff, strlen(baff), 0, (Sh *)Seliaddr, :zn); 


namesdaytimeudpsrvi.c 


图 11-19 ”协议 无 关 的 UDP 时 间 获 取 服 务 器 程序 
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11.17 getnameinfork 2 


getnameinfo 是 getaddrinfo 的 互补 函数 ， 它 以 一 个 套 接 字 地 址 为 参 

数 ， 返 回 描述 其 中 的 主机 的 一 个 字符 串 和 描述 其 中 的 服务 的 另 一 个 字符 

串 。 本 函数 以 协议 无 关 的 方式 提供 这 些 信 息 ， 也 就 是 说 ， 调 用 者 不 必 基 

E 中 的 协议 地 址 的 类 型 ， 因 为 这 些 细 市 由 本 函数 
行 处 理 。 


#include <netdb.h> 





int getnameinfo(const struct sockaddr \*sockaddr, socklen t addrlen, 
char N*host, socklen t hostlen, 
char \*serv, socklen t servlen, int flags); 


返回 : 若 成 功 则 为 9， 若 出 错 则 为 非 9〈 见 图 11-7) 








sockaddr 指 同一 个 套 接 字 地 址 结构 ， 其 中 包含 待 转换 成 直观 可 该 的 
字符 串 的 协议 地 址 ，addrien 是 这 个 结构 的 长 度 。 该 结构 及 其 长 度 通 向 


由 accept、recvfrom、getsockname 或 getpeername 返 回 。 


待 返回 的 2 个 直观 可 读 字 符 串 由 调用 者 预先 分 配 存储 空间 ，jhost 和 
hostien 指 定 主 机 字符 串 ，serv 和 servlen 指 定 服务 字符 串 。 如 果 调 用 者 不 
想 返 回 主机 字符 串 ， 那 就 指定 hostlen 为 0。 同 样 ， 把 servlen 指 定 为 0 就 是 
不 想 返 回 服务 字符 串 。 


sock_ntop 和 getnameinfo 的 差别 在 于 ， 前 者 不 涉及 DNS， 只 返回 了 P 
地 址 和 端口 号 的 一 个 可 显示 版 本 ; 后 者 通常 尝试 获取 主机 和 服务 的 名 
字 。 


图 11-20 中 给 出 了 6 个 可 指定 的 标志 ， 用 于 改变 getnameinfo 的 操作 。 


NI DGRAM 数据 报 服务 
NI NAMEREQD 若 不 能 从 地 址 解析 出 名 字 则 返回 错误 


NI NOFQDN 只 返回 FQDN 的 主机 名 部分 
NI NUMERICHOST LL XU d OR Iul 3 DUE REB 
NI NUMERICSCOPE VA HR x [pp BS E SER 
NI NUMERICSERV 以 数 串 格式 返回 服务 字符 串 





图 11-20 getnameinfo 的 标志 值 


当知 道 处 理 的 是 数据 报 套 接 字 时 ， 调 用 者 应 设置 NI_D6RAM 标 志 ， 因 
为 在 套 接 字 地 址 结构 中 给 出 的 仅仅 是 耳 地 址 和 端口 号 ，getnameinfo 无 法 
就 此 确定 所 用 协议 CTCPERUDPO 。 有 若干 个 端口 号 在 TCP 上 用 于 一 个 
服务 ， 在 UDP 上 却 用 于 截然 不 同 的 另 一 个 服务 。 端 口 514 驶 是 这 样 的 一 
个 例子 ， 它 在 TCP 上 提供 rsh 服 务 ， 在 UDP 上 提供 syslog 服 务 。 
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如 果 无 法 使 用 DNS 反 癌 解 析出 主机 名 ，NI_NAMEREQD 标 志 将 导致 返 
回 一 个 错误 。 需 要 把 客户 的 IP 地 址 映射 成 主机 名 的 那些 服务 器 可 以 使 用 
这 个 特性 。 这 些 服 务 器 随后 以 这 样 返 回 的 主机 名 调用 gethostbyname， 
以 便 验 证 gethostbyname 返 回 的 某 个 地 址 就 是 早先 调用 getnameinfo 指 定 
的 套 接 字 地 址 结构 中 的 地 址 。 


NI_NOFQDN 标 志 导 致 返回 的 主机 名 第 一 个 点 号 之 后 的 内 容 被 截 去 。 
举例 来 说 ， 假 设 套 接 字 地 址 结构 中 的 卫 地 址 为 192.168.42.2， 那 么 不 设置 
本 标志 的 gethostbyaddr 返 回 的 主机 名 为 aix.unpbook.com， 而 设置 本 标 
志 的 gethostbyaddr 返 回 的 主机 名 为 aix。 








NI_NUMERICHOST 标 志 告 知 getnameinfo 不 要 调用 DNS (因为 调用 DNS 
可 能 耗 时 ) ， 而 是 以 数值 表达 格式 以 字符 串 的 形式 返回 IP 地 址 (可 能 通 
过 调用 inet_ntop 实 现 ) 。 类 似 地 ，NI_NUMERICSERV 标 志 指 定 以 十 进 制 数 
格式 作为 字符 串 返 回 端 口号 ， 以 代 蔡 查找 服务 名 ; NI_NUMERICSCOPE 标 志 
指定 以 数值 格式 作为 字符 串 返 回 范围 标识 ， 以 代 蔡 其 名 字 。 既 然 客户 的 
端口 号 通常 没有 关联 的 服务 名 一 一 它们 是 临时 的 端口 ， 服 务 器 通常 应 该 


设置 NI_NUMERICSERV 标 志 。 


对 于 这 些 标志 有 意义 的 组 合 〈 例 如 NIT_DGRAM 和 NI_NUMERICHOST) ， 
可 以 把 其 中 各 个 标志 逻辑 或 在 一 起 。 


11.18 HJ E AG 


11.3 节 的 gethostbyname 孙 数据 出 了 一 个 我 们 尚未 讨论 过 的 有 趣 问 
题 : 它 不 是 可 重 入 的 (re-entrant) 。 到 第 26 章 讨论 线程 时 我 们 会 普遍 地 
遇 到 这 个 问题 ， 不 过 在 涉及 线程 概念 之 前 探讨 本 问题 并 查看 其 解决 办 法 
也 是 必要 的 。 


我 们 首先 查看 该 函数 的 工作 机 理 。 如 果 阅 读 其 源 代码 (这 一 点 易于 
做 到 ， 因 为 整个 BIND 版 本 的 源 代码 都 是 公开 可 得 的 ) ， 我 们 会 发 现 一 
个 包含 gethostbyname 和 gethostbyaddr 的 文件 ， 该 文件 的 内 容 大 体 如 
下 : 





static struct hostent host; /* result stored here */ 


struct hostent * 
gethostbyname(const char *hostname) 


return(gethostbyname2(hostname, family)); 


j 


struct hostent * 
gethostbyname2(const char *hostname, int family) 


/* call DNS functions for A or AAAA query */ 
/* fill in host structure */ 
return(&host); 
struct hostent * 
gethostbyaddr(const char *addr, socklen t len, int family) 
/* call DNS functions for PTR query in in-addr.arpa domain */ 
/* fill in host structure */ 


return(&host); 
} 
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我 们 突出 显示 结果 结构 的 static 存 储 类 别 限定 词 ， 意 在 表明 它 是 问 
题 的 关键 。 访 文件 中 定义 的 3 个 函数 共用 同一 个 host 变 量 这 一 事实 还 引 
入 了 我 们 将 在 习题 11.1 中 讨论 的 另 一 个 问题 。〈 其 中 gethostbyname2 函 
数 是 在 BIND 中 为 支持 IPv6 而 引入 的 。 它 现 已 被 淘汰 ， 详 见 11.20 节 。 当 








调用 gethostbyname 时 , 我 们 将 忽略 它 实 际 上 调用 gethostbyname2 这 一 事 
实 ， 因 为 如 此 忽略 并 不 影响 本 讨论 。) 


一 个 普通 的 UNIX 进 程 中 发 生 重 入 问题 的 条 件 是 ， 从 它 的 主 控制 
流 中 和 某 个 信号 处 理 函 数 中 同时 调用 gethostbyname 或 gethostbyaddr。 
当 这 个 调用 信号 处 理 函数 被 调用 时 〈 璧 如 说 它 是 一 个 每 秒 钟 产生 一 次 的 
， 该 进程 的 主 控制 流 被 暂停 以 执行 信号 处 理 函 数 。 考 虑 
WRIT: 


main() 








struct hostent *hptr; 
signal(SIGALRM, sig alrm); 


hptr = gethostbyname( ... ); 
} 


void 
sig_alrm(int signo) 


struct hostent *hptr; 


hptr = gethostbyname( ... ); 


d 





AR SE Pe ill ie A FIT EXD T DA fT gethostbynameJ)]|H] CEQ ib iA 
函数 已 经 填写 好 host 变 量 并 即将 返回 ) ， 而 且 信 号 处 理 函 数 随后 调 
用 gethostbyname， 那 么 该 host 变 量 将 被 重用 ， 因 为 该 进程 中 只 存在 该 变 
量 的 单个 副本 。 这 人 么 一 来 ， 原 先 由 主 控制 流 计算 出 的 值 被 重 写成 了 由 当 
前 信号 处 理 函 数 调用 计算 出 的 值 。 
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查看 本 间 讲 解 的 名 字 和 地 址 转换 函数 以 及 第 4 章 中 的 inet_XXX 函 
数 ， 我 们 就 重 入 问题 提请 注意 以 下 几 点 。 


e. 因 历 史 原 因 ， gethostbyname、gethostbyaddr、 getservbyname 和 
getservbyport 这 4 个 函数 是 不 可 重 入 的 ， 因 为 它们 都 返回 指向 同一 


个 静态 结构 的 指针 。 

支持 线程 的 一 些 实 现 〈 例 如 Solaris 2.x) 同时 提供 这 4 个 函数 的 可 重 
入 版 本 ， 它 们 的 名 字 以 r 结 尾 ， 我 们 将 在 下 一 节 介 绍 它们 。 

支持 线程 的 另 一 些 实现 (例如 HP-UX 10.30 及 以 后 版 本 ) 使 用 线程 
特定 数据 (26.5 市 ) 提供 这 些 函 数 的 可 重 入 版 本 。 
inet_pton 和 inet_ntop 总 是 可 重 入 的 。 

因 历 史 原 因 ，inet_ntoa 是 不 可 重 入 的 ， 不 过 文 持 线程 的 一 些 实现 
提供 了 使 用 线程 特定 数据 的 可 重 入 版 本 。 

getaddrinfo 可 重 入 的 前 提 是 由 它 调 用 的 函数 都 可 重 入 ， 这 就是 

说 ， 它 应 该 调用 可 重 入 版 本 的 gethostbyname 以 解析 主机 名 〉 和 
getservbyname 〈 以 解析 服务 名 ) 。 本 函数 返回 的 结果 全 部 存放 在 
动态 分 配 内 存 空 间 的 原因 之 一 就 是 允许 它 可 重 入 。 
getnameinfo 可 重 入 的 前 提 是 由 它 调 用 的 函数 都 可 重 入 ， 这 束 是 

说 ， 它 应 该 调用 可 重 入 版 本 的 gethostbyaddr 《以 反问 解析 主机 
名 ) 和 getservbyport 〈 以 反 辐 解析 服务 名 ) 。 它 的 2 个 结果 字符 串 


errno 释 量 存在 类 似 的 问题 。 这 个 整 型 变量 历来 每 个 进程 各 有 一 个 











副本 。 如 末 一 个 进程 执行 的 茶 个 系统 调用 返回 一 个 错误 ， 该 进程 的 这 个 








变量 中 就 被 存 入 一 个 整数 错误 码 。 举 例 来 说 ， 当 调用 标准 C 函 数 库 中 名 
为 close 的 函数 时 ， 进 程 可 能 执行 类 似 如 下 的 伪 代 码 : 


把 系统 调用 的 参数 〈 一 个 整数 描述 符 ) 置 于 一 个 寄存 器 ; 

把 一 个 值 置 于 另 一 个 寄存 器 ， 以 指出 待 调用 的 是 close 系 统 调 用 
激活 该 系统 调用 《〈 用 一 条 特殊 指令 切换 到 内 核 态 ) ; 

测试 一 个 寄存 器 的 值 以 判定 是 否 发 生 过 某 个 错误 ; 

知 没有 错误 则 执行 return(9); 

否则 把 另外 某 个 寄存 器 的 值 存 入 errno; 

执行 return(-1)。 


首先 应 该 注意 耕 没 有 任何 错误 发 生 则 errno 的 值 不 会 改变 。 因 此 ， 











除非 知道 发 生 了 一 个 错误 〈 通 党 由 函数 调用 返回 -1 指示 ) ， 人 否则 不 应 该 
查看 errno 的 值 。 
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假设 一 个 程序 先 测试 close 函 数 的 返回 值 ， 判 定 发 生 了 一 个 错误 后 
再 显示 errno 的 值 ， 其 代码 如 下 : 


if (close(fd) < 0) { 
fprintf(stderr,"close error, errno = %d\n", errno); 
exit(1); 


从 close 系 统 调 用 返回 时 把 错误 码 存 入 errno 到 稍 后 由 程序 显示 errno 
的 值 之 间 存 在 一 个 小 的 时 间 窗 口 ， 期 间 同 一 个 进程 内 的 另 一 个 执行 线程 
《例如 一 个 信号 处 理 函 数 的 某 次 调用 ) 可 能 改变 了 errno 的 值 。 举 例 来 
说 ， 如 果 这 个 信号 处 理 函 数 被 调用 时 主 控制 流 处 于 close 和 fprintf 之 
间 ， 而 且 这 个 信号 处 理 函 数 调用 的 另外 某 个 系统 调用 《譬如 write) 也 
返回 一 个 错误 ， 那 么 由 write 系统 调用 存放 的 errno 值 将 履 写 由 close 系 统 
调用 存放 的 errno 值 。 


就 信号 处 理 函 数 考 虑 这 两 个 问题 ， 其 中 gethostbyname 问 题 (返回 
一 个 指 问 某 个 静态 变量 的 指针 )〉 的 解决 办 法 之 一 是 在 信号 处 理沙 数 中 不 
调用 任何 不 可 重 入 的 函数 ，errno 问 题 〈 其 值 可 被 信号 处 理 函 数 改 变 的 
单个 全 局 变量 ) 可 通过 把 信号 处 理 函 数 编写 成 预先 保存 并 事后 恢 
复 errno 的 值 加 以 避免 ， 其 代码 如 下 : 


void 
sig alrm(int signo) 





int errno save; 


errno save - errno; /* save its value on entry */ 
if (write( ... ) !- nbytes) 
fprintf(stderr, "write error, errno = %d\n", errno); 
errno = errno_save; /* restore its value on return */ 


在 这 段 例 子 代 码 中 ， 我 们 还 从 信号 处 理 函 数 中 调用 了 fprintf 这 个 
标准 WO 函数 。 它 引入 了 男 一 个 重 入 问题 ， 因 为 许多 版 本 的 标准 WO 函数 
s ONERE 也 就 是 说 我 们 不 应 该 从 信号 处 理 函 数 中 调用 标准 IO 


我 们 将 在 第 26 章 中 重 提 这 个 重 入 问题 ， 并 碍 看 线程 如 何 处 理 errno 
变量 的 问题 。 下 一 节 介 绍 主机 名 转换 函数 的 一 些 可 重 入 版 本 。 





11.19 "NL r Fil 
gethostbyaddr rfFf| PS 


有 两 种 方法 可 以 把 诸如 gethostbyname 之 类 不 可 重 入 的 函数 改 为 可 
重 入 函数 。 
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(1) 把 由 不 可 重 入 函数 填写 并 返回 静态 结构 的 做 法 改 为 由 调用 者 分 
配 再 由 可 重 入 函数 填写 结构 。 这 是 把 不 可 重 入 的 gethostbyname 改 为 可 
重 入 的 gethostbyname_r 所 用 的 技巧 。 但 这 种 方法 比较 复杂 ， 因 为 不 仅 调 
用 者 必须 提供 有 待 填写 的 hostent 结 构 ， 而 且 该 结构 还 指向 其 他 信息 : 
规范 名 字 、 别 名 指针 数组 、 各 个 别名 字符 串 、 地 址 指针 数组 以 及 各 个 地 
址 《参见 图 11-2) 。 调 用 者 必须 提供 一 个 足以 存放 这 些 额外 信息 的 大 组 
冲 区 以 及 一 个 待 填写 的 hostent 结 构 ， 所 填写 的 内 容 包 括 多 个 指 同 这 个 
大 缓冲 区 的 指针 。 这 么 一 来 该 函数 至 少 得 增设 3 个 参数 : 指向 待 填 写 的 
hostent 结 构 的 一 个 指针 、 指 回 存 放 所 有 其 他 信息 所 用 缓冲 区 的 一 个 指 
针 以 及 该 缓冲 区 的 大 小 。 作 为 第 四 个 额外 参数 ， 指 回 用 于 存放 错误 人 码 的 
某 个 整数 变量 的 一 个 指针 也 是 必要 的 ， 因 为 不 能 再 用 全 局 整数 变量 
herrno. 〈 全 局 变量 h_errno 引 起 与 errno 所 引起 的 相同 的 重 入 问题 。) 


getnameinfo 和 inet_ntop 也 使 用 这 种 方法 。 


(2) 由 可 重 入 函数 调用 malloc 以 动态 分 配 内 存 空间 。 这 
是 getaddrinfo 使 用 的 技巧 。 这 种 方法 的 问题 是 调用 该 函数 的 应 用 进程 
必须 调用 freeaddrinfo 释 放 动 态 分 配 的 内 存 空间 。 如 果 不 这 么 做 就 会 导 
致 内 存 空间 泄漏 (memory leak) : 进程 每 调用 一 次 动态 分 配 内 存 空间 
的 函数 ， 所 用 内 存量 就 相应 增长 。 如 果 进 程 长 时 间 运行 (网 络 服 务 占 的 
公共 特性 之 一 ) ， 那 么 内 存 耗 用 量 束 随时 间 不 断 增 加 。 


现在 讨论 Solaris ”2.x 用 于 从 名 字 到 地 址 和 从 地 址 到 名 字 进 行 解析 的 
可 重 入 函数 。 


Zinclude «netdb.h» 














struct hostent *gethostbyname r(const char *hostname, 


struct hostent *result, 
char *buf, int buflen, int *h errnop); 


struct hostent *gethostbyaddr r(const char *addr, int len, int type, 
struct hostent *result, 
char *buf, int buflen, int *h errnop); 
均 返 回 : 若 成 功 则 为 非 空 指针 ， 关 出 错 则 为 NULL 














每 个 函数 都 需要 4 个 额外 的 参数 。 其 中 result 参 数 指 加 由 调用 者 分 配 
i 成 功 返 回 时 本 指针 同时 作为 函数 
I 返回 值 。 


buf 参 数 指向 由 调用 者 分 配 且 大 小 为 buflen 的 缓冲 区 。 该 缓冲 区 用 于 
存放 规范 主机 名 、 别 名 指针 数组 、 各 个 别名 字符 串 、 地 址 指针 数组 以 及 
各 个 实际 地 址 。 由 result 指 向 的 hostent 结 构 中 的 所 有 指针 都 指向 该 缓冲 区 
内 部 。 那 这 个 缓冲 区 要 有 多 大 才 行 呢 ? ASN, MABE KAD 
言 ， 大 多 数 手 册页 面 只 是 含糊 地 说 “该 缓冲 区 必须 大 得 足以 存放 
与 hostent 结 构 关 联 的 所 有 数据 ”。gethostbyname 当 前 的 实现 最 多 能 够 返 
回 35 个 别名 指针 和 35 个 地 址 指针 ， 并 内 部 使 用 一 个 8192 字 市 的 缓冲 区 存 
放 这 些 别 名 和 地 址 。 因 此 大 小 为 8192 字 节 的 缓冲 区 应 该 足够 了 。 


如 果 出 错 ， 错 误 码 就 通过 h_errnop 指 针 而 不 是 全 局 变量 h_errno 返 
回 。 
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不 幸 的 是 ， 重 入 问题 比 它 表面 看 来 更 要 严重 。 首 先 ， 关 于 
gethostbyname 和 gethost- byaddr 的 重 入 问题 无 标准 可 循 。POSIX 规 范 
声明 这 两 个 函数 不 必 是 可 重 入 的 。Unix ”98 只 说 这 两 个 函数 不 必 是 线程 
Ss 


其 次 ， 关 于 _r 图 数 也 没有 标准 可 循 。 本 节 【〈 出 于 作为 例子 目的 ) 展 
示 的 那 两 个 rr 函数 由 Solaris ”2.x 提供 。Linux 提 供 相 似 的 _r 函 数 ， 但 函数 
会 返回 一 个 hostent 结 构 ， 该 结构 是 使 用 作为 倒数 第 二 个 参数 的 值 一 结 
果 参 数 返 回 的 。 寿 查找 成 功 ， 则 返回 函数 和 h_errno 参 数 的 值 。Digital 
Unix 4.0 和 HP-UX 10.30 同 样 提供 这 两 个 函数 的 _r 版 本 ， 只 是 参数 不 同 而 
己 。 它 们 的 gethostbyname_r 消 数 有 与 Solaris 版 本 同样 的 前 2 个 参数 ， 不 
过 Solaris 版 本 的 后 3 个 参数 被 前 者 组 合成 一 个 新 的 hostent_data 结 构 〔 它 
必须 由 调用 者 分 配 存储 空间 ) ， 指 问 该 结构 的 一 个 指针 构成 本 函数 的 第 
三 个 兼 最 后 一 个 参数 。 通 过 使 用 线程 特定 数据 (26.51) ，Digital Unix 














4.0 和 HP-UX 10.30% Zt Hif H]gethostbynamefllgethostbyaddr PK Alte, 
ARG HY HA. Solaris 2.x 的 _r 函 数 的 开发 历史 参见 [Maslen 1997] . 


最 后 ， 虽 然 gethostbyname 的 可 重 入 版 本 可 以 在 同时 调用 它 的 不 同 线 
程 之 间 提 供 安全 性 ， 却 没有 提 及 支撑 它 的 解析 器 函数 的 重 入 性 。 


11.20 “作废 的 IPv6 地 址 解析 函数 


在 开发 IPv6 期 间 ， 用 于 查找 IPv6 地 址 的 API 经 历 了 若干 次 反复 。 这 
些 早期 的 API 既 复杂 又 没有 足够 的 灵活 性 ， 于 是 在 RFC 2553 [Gilligan et 
al. 1999] 中 被 淘汰 掉 。RFC 2553 又 引入 了 新 的 函数 ， 它 们 最 终 在 REFC 
3493 [Gilligan et al. 2003] 中 被 简单 地 替换 成 getaddrinfo 和 
DL AE 本 节 人 简要 介绍 一 些 早期 的 API， 以 辅助 转换 已 经 使 用 它们 
多 程序 。 


11.20.1 RES USE INET6 常 值 


gethostbyname 没 有 可 指定 所 关心 地 址 族 的 参数 Cult getaddrinfo 
的 hints ， ai_family 结 构成 员 ) ， 因 此 这 个 API 的 第 一 个 修订 本 使 
用 RES_USE_INET6 常 值 ， 使 用 者 必须 以 一 个 私 用 的 内 部 接口 把 该 常 值 加 
到 解析 器 标志 中 。 这 个 API 不 大 容易 移植 ， 因 为 使 用 别 的 内 部 解析 器 接 
口 的 系统 不 得 不 模仿 BIND 解 析 器 接口 以 提供 它 。 


启用 RES_USE_INET6 会 使 gethostbyname 首 先 查 找 AAAA 记 录 ， 若 找 
不 到 任何 AAAA 记 录 则 接着 查找 A 记录 。 因 为 hostent 结 构 只 有 一 个 地 址 
长 度 字 段 ， 所 以 gethostbyname 只 能 要 么 返回 IPv6 地 址 ， 要 么 返回 IPv4 地 
址 ， 而 不 能 同时 返回 这 两 种 地 址 。 
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启用 RES_USE_INET6 还 会 使 gethostbyname2 以 IPv4 了 映射 的 IPv6 地 址 的 
形式 返回 IPv4 地 址 。 


11.20.2 gethostbyname2 rf) Zi 


gethostbyname2 P% BZA gethostbynamel4 设 了 一 个 地 址 族 参 数 。 


#include <sys/socket.h> 
#include <netdb.h> 


struct hostent *gethostbyname2(const char *name, int af); 


























返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 设置 h_errno 

















“af BUNAF_INETHY, gethostbyname2 的 行为 与 gethostbyname 一 
样 ， 即 查找 并 返回 IPv4 地 址 。 当 af 参 数 为 AF_INET6 时 ，gethostbyname2 
只 查找 AAAA 记 录 并 返回 IPv6 地 址 。 


11.20.3 getipnodebyname ps Zi 


REC 2553 [Gilligan et al. 1999] 因为 RES_USE_INET6 标 志 的 全 局 特性 
以 及 对 返回 信息 进行 更 多 控制 的 愿望 而 废除 了 RES_USE_INET6 和 


dc Ai 为 了 解决 其 中 一 些 问 题 ， 它 同 时 引入 getipnodebyname 
函数 。 


#include <sys/socket.h> 
#include <netdb.h> 





struct hostent *getipnodebyname(const char *name, int af, 
int flags, int *error_num); 














e 








返回 : ARDU KIERRE A HR NNULL ALi Eerror num 

















E IE E TEUER HL d T ]Biget hos tbyname R BLUE AA LEH 
hostent 结 构 。af 和 jags 这 文 两 个 参数 直接 映射 到 getaddrinfo 的 


hints.ai family 和 hints,.ai_ flags 参 数 。 为 了 线程 安全 起 见 ， 返 回 值 是 
动态 分 配 的 ， 因 而 必须 使 用 freehostent 函 数 释放 。 


#include <netdb.h> 


void freehostent(struct hostent *ptr); 
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SC [Gilligan et al. 2003] 废除 ， 并 代 之 以 getaddrinfo 和 getnameinfo 
函数 。 


11.21 其 他 网 络 相 关 信 息 


我 们 在 本 章 中 一 直 关 注 主机 名 和 IP 地 址 以 及 服务 名 和 端口 号 。 然 而 
我 们 的 视野 可 以 更 广阔 些 ， 应 用 进程 可 能 想 要 查找 四 类 与 网 络 相 关 的 信 
A: 主机 、 网 络 、 协 议和 服务 。 大 多 数 查 找 针 对 的 是 主机 
Cgethostbyname 和 gethostbyaddr ) ， 一 小 部 分 查找 针对 的 是 服务 
(getservbynamefllgetservbyport) ， 更 小 一 部 分 查找 针对 的 是 网 络 和 
协议 。 


所 有 四 类 信息 都 可 以 存放 在 一 个 文件 中 ， 每 类 信息 各 定义 有 三 个 访 
问 函 数 : 


n (1) 函数 getXXXent 读 出 文件 中 的 下 一 个 表 项 ， 必 要 的 话 首 先 打开 文 


(2) 函数 setXXXent 打 开 《〈 如 果 尚 未 打开 的 话 ) 并 回 绕 文 件 ; 
(3) 函数 endXXXent 关 闭 文件 。 


每 类 信息 都 定义 了 各 自 的 结构 ， 包 括 hostent、netent、protoent 和 
servent。 这 些 定 义 通过 包含 头 文件 <netdb.h> 提 供 。 


除了 用 于 顺序 处 理 文 件 的 get、set 和 end 这 三 个 函数 外 ， 每 类 信息 
还 提供 一 些 键 值 查找 (keyed loopup) 函数 。 这 些 函 数 顺 序 遍 历 整 个 文 
件 (通过 调用 getXXXent 函 数 读 出 每 一 行 )， 但 是 不 把 每 一 行 都 返回 给 
调用 者 ， 而 是 寻找 与 某 个 参数 匹配 的 一 个 表 项 。 这 些 键 值 查 找 函 数 具 有 
形 如 getXXXbyYyY 的 名 字 。 举 例 来 说 ， 针 对 主机 信息 的 两 个 键 值 查找 函 
数 是 gethostbyname 〈 碍 找 匹 配 某 个 主机 名 的 表 项 ) 和 
gethostbyaddr (查找 匹配 某 个 IP 地 址 的 表 项 ) 。 图 11-21 汇 总 了 这 些 信 
s 




















数据 文件 键 值 在 找 函数 
/etc/Fcsts hostent. gethostoyadir, gethosthyname 


fetc/networks netent getnetbyaddr, getnetbyname 


/etc/protoccls prctoent getprotobyname, getprotchynumker 


fetc/services servent getservoyname,  getservbyport 





图 11-21 四 类 网 络 相 关 信 息 


在 使 用 DNS 的 前 提 下 如 何 应 用 这 些 函 数 呢 ? 首先 ， 只 有 主机 和 网 络 
信息 可 通过 DNS 获取 ， 协 议和 服务 信息 总 是 从 相应 的 文件 中 读 取 。 我 们 
早先 在 本 章 中 《图 11-1) 提 到 过 ， 不 同 的 实现 有 不 同 的 方法 供 系统 管理 
员 指 定 是 使 用 DNS 还 是 使 用 文件 来 查找 主机 和 网 络 信息 。 
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其 次 ， 如 果 使 用 DNS 查 找 主 机 和 网 络 信 息 ， 那 么 只 有 和 键 值 查 找 函 数 
才 有 意义 。 举 例 来 说 ， 你 不 能 使 用 gethostent 并 期 待 顺序 遍历 DNS 中 的 
所 有 表 项 。 如 果 调 用 gethostent， 那 么 它 仅 仅 读 取 /etc/hosts 文 件 并 避 
免 访 问 DNS 。 


虽然 网 络 信息 可 以 做 成 通过 DNS 能 够 访问 到 ， 但 是 很 少 有 人 这 人 么 
做 。 [Albitz and Liu 2001] 讲述 了 这 个 特性 。 典 型 的 做 法 反而 是 : 系统 
管理 员 创 建 并 维护 一 个 /etc/networks 文 件 ， 网 络 信 息 通 过 它 而 不 是 通 
过 DNS 获 取 。 如 果 存 在 这 个 文件 ， 指 定 -i 选 项 的 netstat 程 序 就 使 用 它 
显示 每 个 网 络 的 名 字 。 然 而 无 类 寻 址 (A.4 节 ) 使 得 这 些 函 数 几 近 无 
用 ， 而 且 它 们 又 不 支持 IPvV6， 因 此 新 的 网 络 应 用 应 该 避免 使 用 网 络 名 


IM 


- 





11.22 ”小 结 


应 用 程序 用 来 把 主机 名 转换 成 IP 地 址 或 做 相反 转换 的 一 组 函数 称 为 
解析 器 。 gethostbyname 和 gethostbyaddr 是 解析 器 曾 和 常用 的 入 口 点 。 随 
着 问 IPv6 和 线程 化 编程 模型 的 转移 ，getaddrinfo 和 getnameinfo 显 得 更 
为 有 用 ， 因 为 它们 既 能 解析 IPv6 地 址 ， 又 符合 线程 安全 调用 约定 。 


处 理 服务 名 和 端口 写 的 常用 函数 是 getservbyname， 它 接受 一 个 服 
务 名 作为 参数 ， 并 返回 一 个 包含 相应 端口 号 的 结构 。 这 种 映射 关系 通常 
包含 在 一 个 文本 文件 中 。 还 有 用 于 把 协议 名 映射 成 协议 号 以 及 把 网 络 名 
映射 成 网 络 号 的 函数 ， 不 过 很 少 使 用 。 


我 们 没有 提 到 的 另 一 种 可 选 方法 是 : 直接 调用 解析 器 函数 ， 以 代替 
使 用 gethostbyname 和 gethostbyaddr。 如 此 直接 应 用 DNS 的 程序 之 一 
是 sendmai1l， 因 为 它 需要 搜索 MX 资源 记录 ， 这 是 gethostbyXXX 国 数 无 
法 做 到 的 。 解 析 器 函数 都 有 以 res_ 开 头 的 名 字 ，res_init 函 数 就 是 一 个 
例子 。 [Albitz and Liu 2001] 第 15 章 讲述 了 这 些 函 数 ， 并 有 调用 它们 的 
一 个 例子 程序 ， 键 入 “man resolver” 应 该 得 到 这 些 函 数 的 手册 页 面 。 


getaddrinfo 是 一 个 非常 有 用 的 函数 ， 它 允许 我 们 编写 协议 无 关 的 
代码 。 然 而 直接 调用 它 要 花 多 个 步骤 ， 而 且 对 于 不 同 的 情形 仍 有 反复 出 
现 的 细节 需要 处 理 : 如 遇 历 所 有 返回 的 结构 ， 忽 略 socket 返 回 的 错误 ， 
为 TCP 服 务 器 设置 so_REUSEADDR 套 接 字 选项 ， 等 等 。 我 们 编写 了 5 个 访问 
getaddrinfo 的 接口 函 
数 tcp_connect、 tcp listen. udp client. udp connect. udp server; 
以 简化 所 有 这 些 细节 。 我 们 通过 编写 TCP 上 或 UDP 上 时 间 获 取 客 户 和 服 
务 器 程序 的 协议 无 关 版 本 展示 了 这 些 函 数 的 用 法 。 


gethostbyname 和 gethostbyaddr 通 常 也 是 不 可 重 入 的 函数 。 这 两 个 
函数 共享 一 个 静态 的 结果 结构 ， 都 返回 指向 该 结构 的 一 个 指针 。 到 第 26 
章 介绍 线程 时 我 们 还 会 遇 到 并 讨论 重 入 问题 。 我 们 介绍 了 一 些 广 商 提供 
的 这 两 个 函数 的 _r 版 本 。 它 们 提供 了 一 种 解决 方法 ， 但 是 需要 对 调用 这 
些 函 数 的 所 有 应 用 程序 加 以 修改 。 








习题 


11.1 修改 图 11-3 中 的 程序 ， 为 每 个 返回 的 地 址 调 
用 gethostbyaddr， 然 后 显示 由 它 返 回 的 h_name。 首 先 指 定 一 个 只 有 单个 
IP 地 址 的 主机 名 运行 本 程序 ， 然 后 指定 一 个 有 多 个 耻 地 址 的 主机 名 运行 
本 程序 ， 将 会 发 生 什么 ? 


11.2 ”修复 上 个 习题 中 出 现 的 问题 。 
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113 将 服务 名 指定 为 chargen， 运 行 图 11-4 中 的 程序 。 


11.4 ”指定 一 个 点 分 十 进 制 数 串 格式 的 IP 地 址 作为 主机 名 运行 图 11- 
4 中 的 程序 。 你 的 解析 器 允许 这 么 做 吗 ? 把 图 11-4 中 的 程序 改 为 允许 把 
点 分 十 进 制 数 串 格式 的 耳 地址 作为 主机 名 ， 把 十 进 制 数 串 格 式 的 端口 号 
作为 服务 名 。 在 测试 主机 名 参数 是 一 个 点 分 十 进 制 数 串 还 是 一 个 主机 名 
字符 串 时 ， 应 该 如 何 编排 这 两 个 测试 的 顺序 ? 


11.5 修改 图 11-4 中 的 程序 ， 使 得 它 对 于 IPv4 和 IPv6 都 能 工作 。 


11.6 ”修改 图 11-4 中 的 程序 ， 使 得 它 反 同 查 找 DNS， 然 后 比较 返回 
的 卫 地 址 和 目的 主机 的 所 有 了 地 址 。 也 就 是 说 ， 先 用 由 recvfrom 返 回 的 
IP 地 址 调用 gethostbyaddr， 后 跟 gethostbyname 调 用 以 找 出 目的 主机 的 
所 有 IP 地 址 。 


11.7 在 图 11-12 中 ， 调 用 者 必须 传递 一 个 整数 指针 以 获取 协议 地 址 
的 大 小 。 如 果 调 用 者 没有 这 么 做 〈 也 就 是 作为 最 后 一 个 参数 传递 的 是 一 
个 空 指针 ) ， 那 么 它 怎样 才能 取得 协议 地 址 真正 的 大 小 呢 ? 


11.8 修改 图 11-14 中 的 程序 ， 改 用 getnameinfo 代 替 sock_ntop。 应 
该 传递 给 getnameinfo 哪 些 标 志 ? 











11.9 在 7.5 节 我 们 随 so_REUSEADDR 套 接 字 选项 讨论 过 端口 盗用 问 
题 。 为 了 弄 清 它 的 工作 机 理 ， 我 们 以 图 11-19 为 源 程 序 构造 一 个 协议 无 
关 的 UDP 时 间 获 取 服 务 器 程序。 在 一 个 窗口 中 启动 该 服务 器 的 一 个 实 





例 ， 给 它 捆 绑 通 配 地 址 和 某 个 由 你 选择 的 端口 。 在 另 一 个 窗口 中 局 动 一 
个 客户 ， 并 验证 服务 器 正在 处 理 客户 请 求 〈 注 意 服务 右 的 printf 调 
Hi» 。 接 着 在 第 三 个 窗口 中 局 动 服 务 器 的 吃 一 个 实例 ， 这 次 给 它 捆绑 该 
主机 的 一 个 单 播 地 址 以 及 与 第 一 个 服务 器 相同 的 端口 。 你 号 上 碰 到 的 是 
什么 问题 ? 修复 这 个 问题 后 重新 局 动 第 二 个 服务 器 。 局 动 一 个 客户 ， 发 
送 一 个 数据 报 ， 验 证 第 二 个 服务 器 已 盗用 了 第 一 个 服务 器 的 端口 。 要 是 
可 能 的 话 ， 使 用 与 启动 第 一 个 服务 占 所 用 的 登录 账号 不 同 的 为 一 个 账号 
再 次 局 动 第 二 个 服务 占 ， 看 能 耕 继 续 成 功 次 用。 有 些 广 了 商 只 允许 用 户 ID 
相同 的 进程 再 次 捆绑 之 前 茶 个 进程 已 绑 定 的 端口 。 


11.10 ”在 2.12 节 末尾 我 们 展示 了 两 个 telnet 例 子 : 一 个 连接 到 时 间 
获取 服务 器 ， 另 一 个 连接 到 回 射 服务 器 。 已 知客 户 要 经 历 
gethostbyname 和 connect 这 两 个 步骤 ， 你 能 判定 它 的 哪些 输出 行 对 应 哪 
个 步骤 吗 ? 


11.11 ”如果 找 不 到 给 定 IP 地 址 对 应 的 主机 名 ，gethostbyaddr 可 能 
BLAS EAR TRAY Ta] (最 长 80s〉 才 能 返回 一 个 错误 。 编 写 一 个 新 的 名 
为 getnameinfo_timeo 的 函数 ， 它 有 一 个 额外 的 整数 参数 用 于 指定 等 待 应 
答 的 最 大 秒 数 。 如 果 发 生 超时 并 且 没 有 设置 NI_NAMEREQD 标 志 ， 那 就 调 
用 inet_ntop 返 回 一 个 地 址 串 。 
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12.4 概述 


在 未 来 数 年 内 ， 因 特 网 也 许 会 逐渐 地 从 IPv4 过 渡 到 IPv6。 在 这 个 过 
渡 阶 段 ， 基 于 IPv4 的 现 有 应 用 程序 能 够 和 基于 IPv6 的 全 新 应 用 程序 继续 
协同 工作 显得 非常 重要 。 举 例 来 说 ， 厂 商 不 应 该 只 提供 仅 能 与 IPv6 
telnet 服 务 器 程序 协同 工作 的 telnet 客 户 程 序 ， 而 应 该 既 提 供 能 与 IPv4 
服务 器 程序 协同 工作 的 客户 程序 ， 叉 提供 能 与 IPv6 服 务 器 程序 协同 工作 
的 客户 程序 。 更 理想 的 情形 是 ， 一 个 IPv6 的 telnet 客 户 程序 既 能 与 IPv4 
服务 器 程序 协同 工作 ， 又 能 与 IPv6 服 务 器 程序 协同 工作 ， 相 应 地 一 个 
IPv6 的 telnet 服 务 器 程序 既 能 与 IPv4 客 户 程 序 协同 工作 ， 又 能 与 IPv6 客 
户 程序 协同 工作 。 我 们 将 通过 本 章 了 解 这 是 如 何 实 现 的 。 


我 们 贯穿 本 章 假 设 主机 都 运行 着 双 栈 (dual stacks) ， 意 指 一 个 
IPv4 协 议 栈 和 一 个 IPv6 协 议 栈 。 我 们 在 图 2-1 中 展示 的 例子 就 是 一 个 双 栈 
主机 。 在 辐 IPv6 转 换 的 漫长 过 渡 期 内 ， 主 机 和 路 由 器 也 许 会 如 此 运行 许 
多 年 。 到 了 某 个 时 间 点 后 ， 许 多 系统 可 以 关闭 它们 的 IPv4 协 议 栈 ， 然 而 
只 有 时 间 才 能 告诉 我 们 这 种 情况 何 时 (以 及 是 否 ) BRE. 


在 本 章 中 ， 我 们 将 讨论 IPv4 应 用 进程 和 IPv6 应 用 进程 如 何 才能 彼此 
通信 。 个 用 了 v4 或 PPv6 的 客户 或 服务 器 之 间 存 在 如 图 12-1 所 未 的 四 种 组 


o 








TIPv4 服 务 器 IPv6) 25 tn 
Pv% P 儿 平 全 部 现 有 客户 412.25 





AVR AS AS FEIT 


IPv 625 P 1231 对 于 人 多 数 现 有 客户 和 服务 器 程序 
的 管 单 修改 (例如 从 图 1-5 至 图 1-6) 


图 12-1 使 用 IPv4 或 IPv6 的 客户 与 服务 器 的 组 合 
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对 于 客户 和 服务 器 使 用 相同 协议 的 那 两 种 情形 我 们 不 再 过 多 讨论 。 




















我 们 感 兴趣 的 是 客户 和 服务 器 使 用 不 同 协议 的 那 两 种 情形 。 
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双 栈 主机 的 一 个 基本 特性 是 其 上 的 IPv6 服 务 器 既 能 处 理 IPv4 客 户 ， 
又 能 处 理 IPv6 客 户 。 这 是 通过 使 用 IPv4 映 射 的 IPv6 地 址 实现 的 (图 A- 
100 。 图 12-2 展 示 了 这 样 的 一 个 例子 。 
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图 12-2” 双 栈 主 机 上 的 IPv6 服 务 器 为 IPv4 和 IPv6 客 户 服务 


左 侧 有 一 个 IPv4 客 户 和 一 个 IPv6 客 户 。 右 侧 的 服务 器 其 程序 使 用 
IPv6 编 号 。 该 服务 器 创建 了 一 个 绑 定 在 IPv6 通 配 地 址 和 TCP 端 口 9999 上 
的 IPv6 监 听 TCP 套 接 字 。 


我 们 假设 客户 和 服务 器 主机 处 于 同一 个 以 太 网 。 当 然 它 们 也 可 以 通 
过 路 由 器 连接 ， 只 要 所 有 路 由 露 都 同时 文 持 IPv4 和 JIPv6， 不 过 这 对 于 我 
们 的 讨论 并 没有 任何 影响 。B.3 节 将 讨论 另外 一 种 情况 ，IPv6 的 客户 和 
服务 器 主机 之 间 通 过 只 文 持 IPv4 的 路 由 器 连接 。 
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我 们 假设 这 两 个 客户 都 发 送 SYN 分 节 以 建立 与 服务 器 的 连接 。IPv4 
客户 主机 在 一 个 IPv4 数 据 报 中 载 送 SYN，IPv6 客 户主 机 在 一 个 IPv6 数 据 
报 中 载 送 SYN。 来 自 IPv4 客 户 的 TCP 分 节 在 以 太 网 线 上 表现 为 一 个 以 太 
网 首部 后 跟 一 个 IPv4 首 部 、 一 个 TCP 首 部 以 及 TCP 数 据 。 以 太 网 首部 中 
包含 的 类 型 字段 值 为 ox0o8669， 它 把 本 以 太 网 帧 标识 为 一 个 IPv4 帧 。TCP 
首部 中 包含 的 目的 端口 为 9999。 (这 些 首部 的 格式 和 内 容 在 附录 人 A 中 详 
细 讲 解 。) IPv4 首 部 中 的 包含 的 目的 耳 地 址 为 206.62.226.42。 


来 自 IPv6 客 户 的 TCP 分 节 在 以 太 网 线 上 表现 为 一 个 以 太 网 首部 后 跟 
一 个 IPv6 首 部 、 一 个 TCP 首 部 以 及 TCP 数 据 。 以 太 网 首部 中 包含 的 类 型 
字段 值 为 ox86dd， 它 把 本 以 太 网 帧 标识 为 一 个 IPv6 帧 。 这 个 TCP 首 部 和 
IPv4 数 据 报 中 的 TCP 首 部 格式 完全 一 样 ， 也 包含 值 为 9999 的 目的 端口 。 
IPv6 首 部 中 包含 的 目的 卫 地 址 


为 5f1b :df00:ce3e:e200: 20: 800: 2b37:6426. 


接收 数据 链 路 通过 查看 以 太 网 类 型 字段 把 每 个 帧 传递 给 相应 的 卫 模 
块 。IPv4 模 块 结合 其 上 的 TCP 模 块 检测 到 IPv4 数 据 报 的 目的 端口 对 应 一 
个 IPv6 套 接 字 ， 于 是 把 该 数据 报 IPv4 首 部 中 的 源 IPv4 地 址 转换 成 一 个 等 
价 的 IPv4 映 射 的 IPv6 地 址 。 当 accept 系 统 调用 把 这 个 已 经 接受 的 IPv4 客 
户 连 接 返 回 给 服务 器 进程 时 ， 这 个 映射 后 的 地 址 将 作为 客户 的 IPv6 地 址 
er ee ee a 














当 accept 系 统 调用 把 接受 的 IPv6 客 户 连接 返回 给 服务 器 进程 时 ， 该 
客户 的 IPv6 地 址 就 是 出 现在 IPv6 首 部 中 的 源 地 址 ， 未 做 任何 改动 。 该 连 
接 上 其 余 的 数据 报 都 是 IPv6 数 据 报 。 


我 们 可 以 把 允许 一 个 IPv4 的 TCP 客 户 和 一 个 IPv6 的 TCP 服 务 器 进行 
通信 的 步骤 总 结 如 下 。 


(1) IPv6 服 务 器 启动 后 创建 一 个 IPv6 的 监听 套 接 字 ， 我 们 假定 服务 器 
把 通 配 地 址 捆绑 到 该 套 接 字 。 


(2 ”IPv4 客 户 调用 gethostbyname 找 到 服务 器 主机 的 一 个 A 记录 。 服 
务 器 主机 既 有 一 个 A 记录 ， 义 有 一 个 AAAA 记 录 ， 因 为 它 同 时 支持 IPv4 
和 IPvV6， 不 过 IPv4 客 户 需 要 的 只 是 一 个 A 记录 。 


(3) 客户 调用 connect， 导 致 客户 主机 发 送 一 个 IPv4 SYN 到 服务 器 主 


机 。 


(4) 服务 器 主机 接收 这 个 目的 地 为 IPv6 监 听 套 接 字 的 IPv4 SYN, x 
置 一 个 标志 指示 本 连接 应 使 用 IPv4 映 射 的 IPv6 地 址 ， 然 后 响应 以 一 个 
IPV4 SYN/ACK。 该 连接 建立 后 ， 由 accept 返 回 给 服务 器 的 地 址 就 是 这 
个 IPv4 映 射 的 IPv6 地 址 。 


(5) 当 服 务 器 主机 往 这 个 IPv4 映 射 的 IPv6 地 址 发 送 TCP 分 节 时 ， 其 了 
栈 产生 目的 地 址 为 所 映射 IPv4 地 址 的 IPv4 载 送 数据 报 。 因 此 ， 客 户 和 服 
务 器 之 间 的 所 有 通信 都 使 用 IPv4 的 载 送 数据 报 。 


(6) 除非 服务 器 显 式 检 查 这 个 IPv6 地 址 是 不 是 一 个 IPv4 映 射 的 IPv6 地 
址 (使 用 将 在 12.4 节 介绍 的 IN6_IS_ADDR_V4MAPPED 宏 ) , (Hl kx 
知道 自己 是 在 与 一 个 IPv4 客 户 通信 。 这 个 细节 由 双 协 议 栈 处 理 。 同 样 
地 ，IPv4 客 户 也 不 知道 自己 是 在 与 一 个 IPv6 服 务 器 通信 。 


上 述 情形 的 一 个 文 撑 性 假设 是 : 双 栈 服务 右 主 机 既 有 一 个 IPv4 地 
址 ， 又 有 一 个 IPv6 地 址 。 在 所 有 IPv4 地 址 耗 尽 之 前 ， 这 个 假设 没有 问 


题 。 
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IPv6 的 UDP 服务 器 也 有 类似 的 情形 ， 不 过 每 个 数据 报 的 地 址 格式 可 
能 有 所 变动 。 举 例 来 说 ， 如 果 IPv6 服 务 器 收 到 来 自 某 个 IPv4 客 户 的 一 个 
数据 报 ， 由 recvfrom 返 回 的 地 址 将 是 该 客户 的 IPv4 映 射 的 IPv6 地 址 。 服 
务 器 以 这 个 IPv4 映 射 的 IPv6 地 址 调用 sendto 给 出 对 本 客户 请 求 的 响应 。 
这 个 地 址 格式 告知 内 核 向 客户 发 送 一 个 IPv4 数 据 报 。 然 而 服务 器 收 到 的 
下 一 个 数据 报 可 能 是 一 个 IPv6 数 据 报 ，recvfrom 将 返回 其 客户 的 IPv6 地 
址 。 如 果 服 务 器 给 出 响应 ， 那 么 内 核 将 产生 一 个 IPv6 数 据 报 。 


图 12-3 汇 总 了 在 一 个 双 栈 主机 上 收 到 的 IPv4 数 据 报 或 IPv6 数 据 报 如 
何 根据 接收 套 接 字 的 类 型 (TCP 或 UDP) 进行 处 理 的 流程 。 


| AF INET AF INET 
[Pv4 套 校 字 4)  SOCK STREAM SOCX DGRAM 

| sockaccr in sockaddr in 

| AF INET6 AF ABBTO 
IPv6 套 接 字 4 SOCK STREAM SN DURS 


sockaddr_iné 


sockaccr 2:n6 


由 a :ec iik 


rccvtrom 
回 的 世 址 | 





IPy4 数 据 报 IPv6 数 据 报 


图 12-3 ”根据 接收 套 接 字 类 型 处 理 收 到 的 IPv4 数 据 报 或 IPv6 数 据 报 





如 果 收 到 一 个 目的 地 为 某 个 IPv4 套 接 字 的 IPv4 数 据 报 ， 那 么 无 需 任 
何 特殊 处 理 。 它 们 在 图 中 是 标 为 *IPv4” 的 那 两 个 箭头 : 一 个 到 
TCP， 一 个 到 UDP。 客 户 和 服务 右 之 间 交 换 的 是 IPv4 数 据 报 。 

如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv6 数 据 报 ， 那 么 无 需 任 
何 特殊 处 理 。 它 们 在 图 中 是 标 为 “IPv6” 的 那 两 个 箭头 : 一 个 到 
TCP， 一 个 到 UDP。 客 户 和 服务 右 之 间 交 换 的 是 IPv6 数 据 报 。 

如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv4 数 据 报 ， 那 么 内 核 把 
与 该 数据 报 的 源 IPv4 地 址 对 应 的 IPv4 映 射 的 IPv6 地 址 作为 

由 accept (TCP) 或 recvfrom (UDP) 返回 的 对 端 IPv6 地 址 。 它 们 
在 图 中 是 两 个 虚线 箭头 。 这 样 的 映射 是 可 行 的， 因为 任何 一 个 IPv4 
2 vq um Um I ERA 
E 


356 


e 上 一 点 的 相反 面 却 不 成 立 : 一 般 说 来 ， 一 个 IPv6 地 址 无 法 表示 成 一 
个 IPv4 地 址 ， 因 此 图 中 没有 从 IPV6 协 议 框 到 两 个 IPv4 套 接 字 的 篆 
she 


大 多 数 双 栈 主 机 在 处 理 监听 套 接 字 时 应 使 用 以 下 规则 。 
(1) IPv4 监 听 套 接 字 只 能 接受 来 目 IPv4 客 户 的 外 来 连接 。 


(2) 如 果 服 务 器 有 一 个 绑 定 了 通 配 地 址 的 IPv6 监 听 套 接 字 ， 而 且 该 
套 接 字 示 设置 IPv6_v60NLY 套 接 字 选项 (7.875) ， 那 么 该 套 接 字 既 能 接 
受 来 自 IPv4 客 户 的 外 来 连接 ， 又 能 接受 来 自 IPv6 客 户 的 外 来 连接 。 对 于 
来 自 IPv4 客 户 的 连接 而 言 ， 其 服务 器 端的 本 地 地 址 将 是 与 某 个 本 地 IPv4 
地 址 对 应 的 IPv4 映 射 的 IPv6 地 址 。 


(3) 如 果 服 务 器 有 一 个 IPv6 监 听 套 接 字 ， 而 且 绑 定 在 其 上 的 是 除 IPv4 
映射 的 IPv6 地 址 之 外 的 某 个 非 通 配 IPv6 地 址 ， 或 者 绑 定 在 其 上 的 是 通 配 
地 址 ， 不 过 还 设置 了 IPV6_V60NLY 套 接 字 选项 (7.8 节 ) ， 那 么 该 套 接 字 
只 能 接受 来 自 IPv6 客 户 的 外 来 连接 。 
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我 们 现在 对 换 一 下 上 一 节 例 子 中 的 客户 和 服务 器 使 用 的 协议 。 首 先 
考虑 运行 在 一 个 双 栈 主机 上 的 一 个 IPv6 的 TCP 客 户 。 


人 六 主机 上 启动 后 创建 一 个 IPv4 
^a WERBEN. 


(2 IPV6 客 户 启动 后 调用 getaddrinfo 单 纯 查 找 IPv6 地 址 (因为 它 请 
求 的 是 AF_INET6 地 址 族 ， 而 且 在 hints 结 构 中 设置 了 AI_v4MAPPED 标 
T) 。 既 然 只 支持 IPv4 的 那个 服务 器 主机 只 有 A 记录 ， 我 们 从 图 11-8 看 
到 返回 给 客户 的 是 一 个 IPv4 映 射 的 IPv6 地 址 。 


(3) IPv6 客 户 在 作为 函数 参数 的 IPv6 套 接 字 地 址 结构 中 设置 这 个 IPv4 
映射 的 IPv6 地 址 后 调用 connect。 内 核 检测 到 这 个 映射 地 址 后 自动 发 送 
一 个 IPv4 SYN 到 服务 器 。 


(4) 服务 器 响应 以 一 个 IPv4 SYN/ACK， 连 接 于 是 通过 使 用 IPv4 数 据 
报 建立 。 
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我 们 可 以 用 图 12-4 汇 总 上 述 通信 步骤 。 


f AF INET AF_INET 






I Py4 套 接 字 4 SOCK STREAM SOCK DGRAM 
" sockaddr in sockaddr in 
AF INET6 AF INET6 
SOCK STREAM SOCK DGRAM 


ul 


sockaddr in6 sockaddr in6 







connect ik IPv4 | 

senate! H | x 

的 地 址 | Ei 
1 t 


IPv4 数 据 报 IPv6 数 据 报 




















图 12-4 ”根据 地 址 类 型 和 套 接 字 类 型 处 理 客 户 请 求 








e 如 果 一 个 IPv4 的 TCP 客 户 指定 一 个 IPv4 地 址 以 调用 connect， 或 者 一 
个 IPv4 的 UDP 客户 指定 一 个 IPv4 地 址 以 调用 sendto， 那 么 无 需 任 何 
特殊 处 理 。 它 们 在 图 中 是 标 为 “TIPv 的 那 两 个 箭头 。 

e 如 果 一 个 IPv6 的 TCP 客 户 指定 一 个 IPv6 地 址 以 调用 connect， 或 者 一 
个 IPv6 的 UDP 客户 指定 一 个 IPv6 地 址 以 调用 sendto， 那 么 无 需 任 何 
特殊 处 理 。 它 们 在 图 中 是 标 为 “IPv6” 的 那 两 个 第 头 。 

e 如 果 一 个 IPv6 的 TCP 客 户 指 定 一 个 IPv4 映 射 的 IPv6 地 址 以 调 
用 connect， 或 者 一 个 IPv6 的 UDP 客 户 指定 一 个 IPv4 映 射 的 IPv6 地 址 
以 调用 sendto， 那 么 内 核 检测 到 这 个 映射 地 址 后 改 为 发 送 一 个 IPv4 
数据 报 而 不 是 IPv6 数 据 报 。 它 们 在 图 中 是 两 个 虚线 箭头 。 
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e 不 论调 用 connect 还 是 调用 sendto，IPv4 客 户 都 不 能 指定 一 个 IPv6 地 
址 ， 因 为 16 个 字 节 的 IPv6 地 址 超出 了 IPv4 的 sockaddr_in 结 构 中 的 
in_addr 成 员 结 构 的 4 字 节 长 度 。 因 此 图 中 没有 从 IPv4 套 接 字 到 IPv6 
协议 框 的 箭头 。 


上 一 节 讨 论 的 IPv4 数 据 报 到 达 某 个 IPv6 套 接 字 的 情形 中 ， 内 核 把 收 
到 的 IPv4 地 址 转换 成 ITPv4 映 射 的 IPv6 地 址 ， 并 通过 accept 或 recvfrom 把 
映射 地 址 透明 地 返回 给 应 用 进程 。 本 节 讨 论 的 通过 某 个 IPv6 套 接 字 发 送 
IPv4 数 据 报 的 情形 中 ， 从 IPv4 地 址 到 IPv4 映 射 的 IPv6 地 址 之 间 的 转换 却 
由 解析 堪 根 据 图 11-8 中 的 规则 完成 ， 映 射 地 址 随后 由 应 用 进程 透明 地 传 


递 给 connect 或 sendto。 
对 互 操作 性 的 总 结 


a A A R ee es 
种 组 合 。 











JPv4 服 务 尖 IPv4 间 | Póli Pv | [Pw ll PE RRS [Pv6 服 务 器 双 栈 主 

FERAL (HA) HéOEBICAEAAAA) | HL CA 和 AAAA》 机 CAZIIAAAA) 
Iva, PvE BL IPv4 | CRD | IPv4 IPv4 
IPv6 7E P^, IPv6 Ez EL (X IPv6 CE) IPv6 
Pa. MEE IPv4 LE) LIPv4 1Pv4 
IPV% P^, SUL IPv4 IPvé CH") IPv6 




















图 12-5 ”IPvV4 和 IPv6 客 户 与 服务 器 互 操作 性 总 结 


图 中 标 为 “TPv4” 或 “TIPv6” 的 栏目 表示 相应 组 合 有 效 ， 并 指出 了 实际 
使 用 的 协议 ;， 标 为 “< (no) ”的 栏目 表示 相应 组 合 无 效 。 最 后 一 行 第 三 列 
标 了 星 号 ， 因 为 该 栏目 的 互 操 作 性 取决 于 客户 选择 的 地 址 。 如 果 选 择 
AAAA 记 录 从 而 发 送 IPv6 数 据 报 ， 那 就 不 能 工作 。 然 而 如 果 选 择 A 记 
录 ， 而 这 个 A 记录 实际 作为 一 个 IPv4 映 射 的 IPv6 地 址 返回 给 客户 ， 使 得 
客户 发 送 IPv4 数 据 报 ， 那 就 能 够 工作 。 通 过 如 图 11-4 所 示 在 一 个 循环 中 
遍 试 由 getaddrinfo 返 回 的 所 有 地 址 ， 可 确保 试用 这 个 IPv4 映 射 的 IPv6 地 
址 。 








尽管 从 图 示 表 格 看 有 四 分 之 一 强 的 组 合 不 能 互 操作 ， 然 而 在 可 预见 
将 来 的 现实 世界 中 ，IPv6 的 多 数 实 现 将 运行 在 双 栈 主机 上 ， 因 而 不 是 
IPvV6 单 栈 实现 。 如 果 我 们 因此 删 去 表 中 的 第 二 行 和 第 二 列 ， 那 么 所 有 标 
A (no) ”的 栏目 都 消失 了 ， 剩 下 的 唯一 问题 是 标 了 星 号 的 栏目 。 
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12.4 ”IPv6 地 址 测试 宏 


有 一 小 类 的 IPv6 应 用 进程 必须 清楚 与 其 通信 的 是 不 是 IPv4 对 端 。 这 
些 应 用 程序 需要 知道 对 端的 地 址 是 不 是 一 个 IPv4 映 射 的 IPv6 地 址 。 头 文 
件 <netinet/in.h> 中 定义 的 以 下 12 个 宏 用 于 测试 一 个 IPv6 地 址 是 否 归属 
某 个 类 型 。 


#include «netinet/in.h» 





int IN6 IS ADDR UNSPECIFIED(const struct in6 addr *aptr); 
int IN6 IS ADDR LOOPBACK(const struct in6 addr *aptr); 
int IN6 IS ADDR MULTICAST(const struct in6 addr *aptr); 
int IN6 IS ADDR LINKLOCAL(const struct in6 addr *aptr); 
int IN6 IS ADDR SITELOCAL(const struct in6 addr *aptr); 
int IN6 IS ADDR V4AMAPPED(const struct in6 addr *aptr); 
int IN6 IS ADDR V4COMPAT(const struct in6 addr *aptr); 


int IN6 IS ADDR MC NODELOCAL(const struct in6 addr *aptr); 
int IN6 IS ADDR MC LINKLOCAL(const struct in6 addr *aptr); 
int IN6 IS ADDR MC SITELOCAL(const struct in6 addr *aptr); 
int IN6 IS ADDR MC ORGLOCAL(const struct in6 addr *aptr); 


int IN6 IS ADDR MC GLOBAL(const struct in6 addr *aptr); 
均 返 回 : 若 IPv6 地 址 归属 指定 类 型 则 为 非 9， 否 则 为 9 























前 7 个 宏 测试 ITPv6 地 址 的 基本 类 型 。 我 们 在 A.5 节 中 介绍 这 些 地 址 类 
型 。 后 5 个 宏 测试 IPv6 多 播 地 址 的 范围 〈21.2 节 ) 。 


IPv4 兼 容 的 IPv6 地 址 用 于 后 来 不 被 看 好 的 条 个 过 渡 机 制 。 你 不 大 可 
能 实际 看 到 这 类 地 址 ， 也 没有 测试 它 的 必要 。 


IPv6 客 户 可 以 调用 IN6_IS_ADDR_v4MAPPED 宏 测试 由 解析 器 返回 的 
IPv6 地 址 。IPv6 服 务 器 同样 可 以 调用 这 个 宏 测 试 由 accept 或 recvfrom 返 
回 的 IPv6 地 址 。 


作为 需要 使 用 这 个 宏 的 一 个 例子 ， 让 我 们 考虑 FTP 和 它 的 PoRT 指 
令 。 如 果 局 动 一 个 FTP 客 户 ， 登 录 到 一 个 FTP 服 务 器 ， 然 后 发 出 FTP 的 
dir 命 令 ， 那 么 FTP 客 户 将 通过 控制 连接 同 FTP 服 务 嚣 发 送 一 个 PoRT 指 
令 。 这 条 指令 把 客户 的 IP 地 址 和 端口 号 告知 服务 器 ， 服 务 器 据 此 随后 就 
建立 一 个 数据 连接 。 (TCPv1 的 第 27 章 中 包含 FTP 应 用 协议 的 所 有 细 
节 。) 然而 IPv6 的 FTP 客 户 必 须 清 楚 对 端 是 一 个 IPv4 服 务 嚣 还 是 一 个 
IPV6 服 务 器 ， 因 为 两 者 所 需 的 PORT 指 令 格式 是 不 同 的 。 前 者 需要 的 格式 


形 如 “PORT  a1,a2,a3,a4,P1,P2", Hog Xr CREÁABETC255z. 
[RIO 构成 一 个 4 字 节 的 IPv4 地 址 ， 后 两 个 数字 构成 2? 字 节 的 端口 号 。 后 者 
需要 一 个 EPRT 指 令 (参见 RFC 2428 [Allman, Ostermann, and Metz 
1998] ) ， 包 含 一 个 地 址 族 、 文 本 格式 的 地 址 和 文本 格式 的 端口 号 。 习 
题 12.1 给 出 了 IPv4 和 IPv6 上 FTP 协 议 行为 的 一 个 例子 。 
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12.5 源 代 码 可 移植 性 


大 多 数 现 有 的 网 络 应 用 程序 是 为 IPv4 编 写 的 。 这 些 应 用 程序 分 配 并 
填写 一 个 或 多 个 sockaddr_in 结 构 ， 并 且 调 用 socket 总 是 指定 AF_INET 为 
第 一 个 函数 参数 。 从 图 1-5 到 图 1-6 的 转换 可 以 看 出 ， 把 这 些 IPv4 应 用 程 
序 转换 成 用 上 IPv6 并 不 费劲 。 我 们 展示 过 的 修改 操作 中 有 许多 可 使 用 一 
些 编辑 脚本 自动 执行 。 较 为 依赖 IPv4 的 程序 转换 起 来 需 多 花 些 功夫 ， 因 
为 它们 使 用 了 诸如 多 播 、IP 选 项 或 原始 套 接 字 等 特性 。 


如 果 在 源 代 码 级 上 把 一 个 应 用 程序 转换 成 用 上 IPv6 并 发 布 它 ， 那 么 
我 们 还 不 得 不 考虑 接纳 者 的 系统 是 否 文 持 IPv6。 这 个 考虑 的 典型 处 理 办 
法 是 在 代码 中 到 处 使 用 铀 fdef 伪 代码 ， 以 尽 可 能 使 用 IPv6 〈 因 为 我 们 已 
在 本 章 中 看 到 ，IPv6 客 户 仍 能 与 IPv4 服 务 器 通信 ， 反 之 亦 然 ) 。 这 种 办 
法 的 问题 是 : 代码 将 被 杂乱 无 章 地 迅速 插入 许多 #ifdef 伪 代码 ， 在 代码 
理解 和 维护 上 造成 困难 。 


更 好 的 办 法 是 把 这 种 向 IPv6 的 转换 视 为 促成 程序 变 得 协议 无 关 的 一 
AE. 第 一 步 去 除 所 有 gethostbyname 和 gethostbyaddr 调 用 ， 改 用 前 
一 章 中 讲解 过 的 getaddrinfo 和 getnameinfo 这 两 个 函数 。 这 一 步 使 得 我 
们 能 够 把 套 接 字 地 址 结构 作为 不 透明 对 象 来 处 理 ， 并 且 就 像 
bind、connect、recvfrom 等 基本 套 接 字 函 数 所 做 的 那样 ， 用 一 个 指针 及 
大 小 来 指 代 它 们 。3.8 节 的 sock_XXX 函 数 能 够 帮助 我 们 独立 于 IPv4 和 
IPV6 地 操纵 它们 。 显 然 这 些 函 数 中 含有 #ifdef 伪 代码 以 处 理 IPv4 和 
IPv6， 但 是 把 所 有 的 协议 相关 内 容 隐 蔽 在 知 干 个 库 函 数 中 将 简化 我 们 的 
代码 。 我 们 将 在 21.7 节 开发 一 组 mcast_XXX 函 数 ， 它 们 能 够 使 得 多 播 应 
用 程序 独立 于 IPv4 或 IPv6。 


另 一 点 需要 考虑 的 是 : 如 果 我 们 在 一 个 同时 文 持 IPv4 和 IPv6 的 系统 
上 编译 源 代码 ， 然 后 发 布 其 可 执行 代码 或 目标 文件 (但 是 不 发 布 源 代 
码 ) ， 然 而 某 个 接纳 者 却 在 不 支持 IPv6 的 某 个 系统 上 执行 我 们 的 应 用 程 
序 ， 那 会 发 生 什么 ?假设 该 接纳 者 存在 这 样 一 个 机 会 :本 地 名 字 服 务 占 
支持 AAAA 记 录 ， 并 且 能 够 为 我 们 的 应 用 进程 尝试 连接 到 的 某 个 对 端 主 
机 同时 返回 AAAA 记 录 和 A 记 录 。 当 我 们 的 应 用 进程 调用 socket 创 建 
IPV6 套 接 字 时 ， 如 果 本 地 主机 不 支持 IPvV6， 那 么 socket 调 用 将 以 失败 告 
终 。 我 们 可 以 忽略 来 自 socket 的 错误 ， 继 续 尝 试 由 名 字 服 务 器 返回 的 地 











址 列表 中 的 下 一 个 地 址 ， 而 这 些 细节 由 我 们 在 前 一 章 中 介绍 过 的 帮手 函 
数 〈 即 getaddrinfo 的 若干 个 简化 访问 接口 函数 ) 来 处 理 。 假 设 对 端 主 
机 有 一 个 A 记 录 ， 并 且 名 字 服 务 器 在 返回 所 有 AAAA 记 录 之 后 还 返回 这 
个 A 记录 ， 那 就 有 可 能 成 功 创建 一 个 IPv4 套 接 字 。 这 类 功能 应 归属 某 个 
库 函 数 提 供 ， 而 不 应 该 出 现在 每 个 应 用 程序 的 源 代 码 中 。 


为 了 能 够 把 套 接 字 描述 符 传 递 给 单纯 文 持 IPv4 或 IPv6 的 应 用 进程 ， 
RFC 2133 [Gilligan et al. 1997] 引入 了 ITpPv6_ADDRFROM 套 接 字 选项 ， 它 能 
够 返回 一 个 套 接 字 描述 符 ， 或 者 潜在 地 改变 与 一 个 套 接 字 关 联 的 地 址 
族 。 然 而 这 个 套 接 字 选 项 的 语义 从 未 完整 地 说 明 过 ， 而 且 它 仅仅 在 非常 
和 
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12.6 小结 


双 栈 主机 上 的 IPv6 服 务 器 既 能 服务 于 IPv4 客 户 ， 又 能 服务 于 IPv6 客 
户 。IPV4 客 户 发 送 给 这 种 服务 器 的 仍然 是 IPv4 数 据 报 ， 不 过 服务 器 的 协 
议 栈 会 把 客户 主机 的 地 址 转换 成 一 个 IPv4 映 射 的 IPv6 地 址 ， 因 为 IPv6 服 
务 器 仅仅 处 理 IPv6 套 接 字 地 址 结构 。 


类 似 地 ， 双 栈 主机 上 的 IPv6 客 户 能 够 和 IPv4 服 务 嚣 通信。 客户 的 解 
析 右 会 把 服务 器 主机 所 有 的 A 记录 作为 IPv4 映 和 册 的 IPv6 地 址 返回 给 客 
户 ， 而 客户 指定 这 些 地 址 之 一 调用 connect 将 会 使 双 栈 发 送 一 个 IPv4 
SYN 分 节 。 只 有 少量 特殊 的 客户 和 服务 器 需要 知道 对 端 使 用 的 具体 协议 
(例如 FTP) ， 而 IN6_IS_ADDR_V4MAPPED 宏 可 用 于 判定 对 端 是 否 在 使 用 
IPv4。 








习题 


12.1 在 一 个 运行 IPv4 和 IPv6 的 双 栈 主机 上 启动 一 个 IPv6 的 FTP 客 
户 。 连 接 到 一 个 IPv4 的 FTP 服 务 器 ， 确 保 客 户 处 于 主动 Cactive) 模式 
(也 许 得 发 出 passive 命 令 以 关闭 被 动 模式 ) ， 发 出 debug 命 令 ， 然 后 
是 dir 命 令 。 然 后 对 一 个 IPv6 的 FIP 服务 器 执行 同样 的 操作 ， 比 较 由 dir 


命令 引发 的 两 个 PORT 指令 。 


12.2 ”编写 一 个 程序 ， 它 需要 一 个 IPv4 点 分 十 进 制 数 串 地 址 作为 唯 
一 的 命令 行 参 数 。 它 创建 一 个 IPv4 的 TCP 套 接 字 ， 并 把 这 个 地 址 和 某 个 
端 号 口 〈 璧 如 9999) 捆绑 到 该 套 接 字 ， 接 着 调用 1isten， 然 后 就 
是 pause。 编 写 类 似 的 另 一 个 程序 ， 它 的 唯一 命令 行 参数 是 一 个 IPv6 的 
十 六 进 制 数 串 地 址 ， 而 且 创建 的 是 IPv6 的 TCP 监 听 套 接 字 。 以 通 配 地 址 
作为 参数 启动 编写 的 IPv4 程 序 。 然 后 在 另 一 个 窗口 中 以 IPv6 通 配 地 址 作 
为 参数 启动 编写 的 IPv6 程 序 。 在 IPv4 程 序 已 经 绑 定 一 个 端口 的 前 提 下 ， 
你 能 启动 捆绑 同一 个 端口 号 的 IPv6 程 序 吗 ? so_REUSEADDR 套 接 字 选项 会 
有 所 帮助 吗 ? 如 果 先 启动 IPv6 程 序 ， 再 尝试 启动 ITPv4 程 序 ， 又 是 什么 情 
in? 
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第 13 半 ”守护 进程 和 inetd 超 级 服务 器 


13.1 概述 


守护 进程 (daemon) 是 在 后 台 运 行 且 不 与 任何 控制 终端 关联 的 进 
程 。Unix 系 统 通常 有 很 多 守护 进程 在 后 台 运 行 〈 约 在 20 一 50 个 的 量 
级 ) ， 执 行 不 同 的 管理 任务 。 


守护 进程 没有 控制 终端 通常 源 于 它们 由 系统 初始 化 脚本 启动 。 然 而 
守护 进程 也 可 能 从 某 个 终端 由 用 户 在 shell 提 示 符 下 键入 命令 行 启动 ， 这 
样 的 守护 进程 必须 亲自 脱离 与 控制 终端 的 关联 ， 从 而 避免 与 作业 控制 、 
终端 会 话 管理 、 终 端 产生 信号 等 发 生 任 何不 期 望 的 交互 ， 也 可 以 避免 在 
台 运 行 的 守护 进程 非 预期 地 输出 到 终端 。 


守护 进程 有 多 种 局 动 方法 。 


(1) 在 系统 启动 阶段 ， 许 多 守护 进程 由 系统 初始 化 脚本 启动 。 这 些 
脚本 通常 位 于 /etc 目 录 或 以 /etc/rc 开 头 的 某 个 目录 中 ， 它 们 的 有 具体 位 
。 由 这 些 脚本 启动 的 守护 进程 一 开始 时 拥有 超 
级 用 户 特权 。 


有 若干 个 网 络 服务 器 通常 从 这 些 脚 本 启动 : inetd 超 级 服务 器 〈 见 
下 一 条 ) 、Web 服 务 嚣 、 邮 件 服务 器 (经 常 是 sendmail) 。 我 们 将 在 
13.2 节 讲解 的 syslogd 守 护 进 程 通常 也 由 某 个 系统 初始 化 脚本 启动 。 


363 


(2) 许多 网 络 服务 器 由 将 在 本 章 靠 后 介绍 的 inetd 超 级 服务 器 局 
动 。inetd 上 自身 由 上 一 条 中 的 某 个 脚本 局 动 。inetd 监 听 网 络 请 求 
(Telnet. FIPS) ， 每 当 有 一 个 请 求 到 达 时 ， 启 动 相应 的 实际 服务 器 
(Telnet 服 务 器 、FTP 服 务 器 等 ) 。 


(3) ” cron 守护 进 程 按照 规则 定期 执行 一 些 程序 ， 而 由 它 局 动 执 行 的 
同样 作为 守护 进程 运行 。cron 目 身 由 第 1 条 月 动 方法 中 的 茶 个 脚本 
HA o 
































(4) at 命令 用 于 指定 将 来 某 个 时 刻 的 程序 执行 。 这 些 程序 的 执行 时 
刻 到 来 时 ， 通 第 由 cron 守 护 进 程 启动 执行 它们 ， 因 此 这 些 程序 同样 作为 
守护 进程 运行 

(5) 和 守护 进程 还 可 以 从 用 户 终 端 或 在 前 台 或 在 后 台 局 动 。 这 么 做 往 
往 是 为 了 测试 守护 程序 或 重启 因 某 种 原因 而 终止 了 的 某 个 守护 进程 。 

因为 守护 进程 没有 控制 终端 ， 所 以 当 有 事 发 生 时 它们 得 有 输出 消息 
的 某 种 方法 可 用 ， 而 这 些 消 息 既 可 能 是 普通 的 通告 性 消息 ， 也 可 能 是 需 
由 系统 管理 员 处 理 的 紧急 事件 消息 。syslog 函 数 是 输出 这 些 消息 FAY) ta Hf 
方法 ， 它 把 这 些 消 息 发 送 给 syslogd 守 护 进程 。 




















13.2 syslogd 和 守护 进程 


Unix 系 统 中 的 syslogd 守 护 进 程 通常 由 某 个 系统 初始 化 脚本 启动 ， 
而 且 在 系统 工作 期 间 一 直 运 行 。 源 自 Berkeley 的 syslogd 实 现在 启动 时 执 
AT AF APR 


(1) 读 取 配置 文件 。 通 稍为 /etc/syslog,conf 的 配置 文件 指定 本 守护 
进程 可 能 收取 的 各 种 日 志 消 息 (log message) 应 该 如 何 处 理 。 这 些 消 息 
可 能 被 添加 到 一 个 文件 〈/vdev/console 文 件 是 一 个 特例 ， 它 把 消息 写 到 
控制 台 上 〉 ， 或 被 写 到 指定 用 户 的 登录 窗口 〈 知 该 用 户 已 登录 到 本 守护 
进程 所 在 系统 中 ) ， 或 被 转发 给 男 一 个 主机 上 的 syslogd 进 程 。 


(2) 创建 一 个 Unix 域 数据 报 套 接 字 ， 给 它 捆绑 路 径 
名 /var/run/10g〔 在 某 些 系统 上 是 /dev/10g) 。 


(3) 创建 一 个 UDP 套 接 字 ， 给 它 捆绑 端口 514 〈syslog 服 务 使 用 的 端 
E. 


Ll 


(4) 打开 路 径 名 /dev/klog。 来 目 内 核 中 的 任何 出 错 消 息 看 着 像 是 这 
个 设备 的 输入 。 


此 后 syslogd 守 护 进程 在 一 个 无 限 循环 中 运行 : 调用 select 以 等 竺 
它 的 3 个 描述 符 〈 分 别 来 自 上 述 第 2、 第 3 和 第 4 步 ) 之 一 变 为 可 读 ， 读 入 
日 志 消 息 ， 并 按照 配置 文件 进行 处 理 。 如 果 和 守护 进程 收 到 SIGHuP 信 和 号， 
A ah BE Se AM CS OC o 
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X8 GE — Unix REARS, XL T, n] DOA ON ST TP ete 
中 通过 往 syslogd 绑 定 的 路 径 名 发 送 我 们 的 消 妃 达到 发 送 日 志 消 息 的 目 
的 ， 然 而 更 简单 的 接口 是 使 用 将 在 下 一 节 讲 解 的 syslog 阔 数 。 力 外 ， 我 
们 也 可 以 创建 一 个 UDP 套 接 字 ， 通 过 往 环 回 地 址 和 端口 514 发 送 我 们 的 
消息 达到 发 送 日 志 消 恩 的 目的 。 


较 新 的 syslogd 实 现 禁止 创建 UDP 套 接 字 ， 除 非 管 理 员 明确 要 求 。 如 
此 改变 的 理由 在 于 : 允许 任何 进程 往 这 个 套 接 字 发 送 UDP 数 据 报 会 让 系 








统 易 遭 拒绝 服务 攻击 ， 其 文件 系统 可 能 被 填 满 ( 例 如 通过 填 满 日 志文 件 
达到 目的 ) ， 来 自 合 法 进程 的 日 志 消 息 可 能 被 排挤 掉 〈 例 如 通过 洲 出 
syslogd 的 套 接 字 接 收 缓冲 区 达到 目的 )。 


syslogd 的 各 种 实现 之 间 存 在 差异 。 举 例 来 说 ， 源 自 Berkeley 的 实现 
使 用 Unix 域 套 接 字 ， 而 System V 的 实现 使 用 基于 流 的 日 志 驱 动 程序 。 包 
源 自 Berkeley 的 各 种 不 同 实现 给 Unix 域 套 接 字 使 用 的 路 径 名 也 不 尽 相 
同 。 如 果 使 用 syslog 函 数 ， 我 们 就 可 以 忽略 所 有 这 些 细节 。 





13.3 syslog 2 


既然 守护 进程 没有 控制 终端 ， 它 们 就 不 能 把 消息 fprintf 到 stderr 
上 。 从 守护 进程 中 登记 消息 的 常用 技巧 就 是 调用 syslog 函 数 。 


#include <syslog.h> 


void syslog(int priority, const char *message, ... ); 


本 函数 最 初 是 为 BSD 系 统 开 发 的 ， 不 过 如 今 几乎 所 有 Unix 三 商都 有 
提供 。POSIX 规 范 对 syslog 的 说 明 与 本 节 所 述 相 符 。RFC ”3164 给 出 了 
BSD 上 syslog 协 议 的 文档 。 


本 函数 的 priority 参 数 是 级 别 (level) 和 设施 (facility) 两 者 的 组 
合 ， 分 别 如 图 13-1 和 图 13-2 所 示 。RFC ”3164 还 有 关于 该 参数 的 额外 细 
节 。message 参 数 类 似 printf 的 格式 串 ， 不 过 增设 了 %m 规 范 ， 它 将 被 蔡 
换 成 与 当前 errno 值 对 应 的 出 错 消息 。message 参 数 的 末尾 可 以 出 现 一 个 
换行 符 ， 不 过 并 非 必 需 。 
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如 图 13-1 所 示 ， 日 志 消 息 的 level 可 以 是 0~~7， 它 们 是 按 从 高 到 低 的 
顺序 排列 的 。 如 果 发 送 者 未 指定 level 值 ， 那 束 默 认为 LoG_NOTICE。 














LOG_EMERG 0 系统 不 可 用 “最 高 优先 级 ) 

LOG ALERT l 必须 立即 采取 行动 

LOG CRIT 2 Is SE ATE 

LOG ERR 3 出 错 条 件 

LOG WARNING 4 警告 条 件 

LOG NOTICE 5 正常 然而 重要 的 条 件 《〈 黑 认 值 ) 
LOG INFO 6 通告 消息 

LOG DEBUG 7 调试 级 消息 “最 低 优 先 级 ) 





图 13-1 日 志 消 息 的 level 








ELS IB BA R6 7 HET SB IS AEE RY facility. 113-2 
列 出 了 jeocility 的 各 种 值 。 如 果 发 送 者 未 指定 jocility 值 ， 那 吏 默 认 


JjLOG USER. 


LOG AUTH 安全 /授权 消息 

LOG AUTHPRIV 安全 /授权 消息 CH 
LOG CRON cron 守 护 进程 

LOG DAEMON 系统 守护 进程 

LOG FTP FTP 人 守护 进程 

LOG KERN 内 核 消息 

LOG LOCALO 本 地 使 用 

LOG LOCAL1 本 地 使 用 

LOG LOCAL2 本 地 使 用 

LOG LOCAL3 本 地 使 用 

LOG LOCALA 本 地 使 用 

LOG LOCALS 本 地 使 用 

LOG LOCAL6 本 地 使 用 

LOG LOCAL? 本 地 使 用 

LOG_LPR 行 式 打印 机 系统 

LOG MAIL 邮件 系统 

LOG NEWS I4 35 SH CESS 

LOG SYSLOG 由 syslogd 内 部 产生 的 消息 
LOG USER 任意 的 用 户 级 消息 “默认 )》 
LOG UUCP UUCP 系 统 





图 13-2 日 志 消 息 的 facility 
举例 来 襄 ， 当 rename 函 数 调用 意外 失败 时 ， 守 护 进 程 可 以 执行 以 下 
调用 : 


Syslog(LOG INFO|LOG LOCAL2, "rename(%s, 96s): %m", file1, file2); 


facility 和 level 的 目的 在 于 ， 人 允许 在 /etc/syslog.conf 文 件 中 统一 配 
置 来 自 同一 给 定 设 施 的 所 有 消息 ， 或 者 统一 配置 具有 相同 级 别 的 所 有 消 
轧 。 举 例 来 说 ， 该 配置 文件 可 能 含有 以 下 两 行 : 





kern.* /dev/console 
local7.debug /var/log/cisco.log 
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这 两 行 指定 所 有 内 核 消 息 登 记 到 控制 台 ， 来 自 local7 设 施 的 所 
有 debug 消 息 添 加 到 文件 /var/ log/cisco.1log 的 末尾 。 


当 syslog 被 应 用 进程 首次 调用 时 ， 它 创建 一 个 Unix 域 数据 报 套 接 
字 ， 然 后 调用 connect 连 接 到 由 syslogd 守 护 进 程 创建 的 Unix 域 数据 报 套 
接 字 的 众所周知 路 径 名 ( 壁 如 /var/run/10g) 。 这 个 套 接 字 一 直 保 持 打 
开 ， 直 到 进程 终止 为 止 。 作 为 蔡 换 ， 进 程 也 可 以 调用 openlog 和 


closelog。 





#include <syslog.h> 


void openlog(const char *ident, int options, int facility); 


void closelog(void); 


open1log 可 以 在 首次 调用 syslog 前 调用 ，closelog 可 以 在 应 用 进程 不 
再 需要 发 送 日 志 消 息 时 调用 。 








ident 参 数 是 一 个 由 syslog 冠 于 每 个 日 志 消 息 之 前 的 字符 串 。 它 的 值 
AM, E TH 
是 程序 名 。 


options 参 数 由 图 13-3 所 示 的 一 个 或 多 个 常 值 的 逻辑 或 构成 。 


LOG CONS 


苦 无 法 发 送 到 syslogs 和 守护 进程 则 登记 到 控制 各 

LOG NDBLAY AIERT I EBD SEES 

LOG 25SRROR 既 发 送 到 sysloqd 宁 护 近 程 ， 又 登记 到 标准 锥 误 箱 出 
LOG_PID BE SEA H RILES IGXEPRID 





图 13-3 openlogllJoptions 


openlog 被 调用 时 ， 通 常 并 不 立即 创建 Unix 域 套 接 字 。 相 反 ， 该 套 
接 字 直到 首次 调用 syslog 时 才 打 开 。LoG_NDELAY 选 项 迫使 该 套 接 字 


在 openlog 被 调用 时 就 创建 。 


openlog 的 facility 参 数 为 没有 指定 设施 的 后 续 syslog 调 用 指定 一 个 默 
认 值 。 有 些 守护 进程 通过 调用 openlog 指 定 一 个 设施 〈 对 于 一 个 给 定 守 
护 进程 ， 设 施 通 常 不 变 ) ， 然 后 在 每 次 调用 syslog 时 只 指定 级 别 ( 因 为 
级 别 可 随 错误 性 质 改 变 ) 。 


日 志 消 息 也 可 以 由 logger 命 令 产 生 。 举 例 来 说 ，1logger 命 令 可 用 在 
shell 脚 本 中 以 同 syslogd 发 送 消 息 。 





13.4 daemon initrK2W 


图 13-4 给 出 了 名 为 daemon_init 的 函数 ， 通 过 调用 它 


(通常 从 服务 器 


程序 中 ) ， 我 们 能 够 把 一 个 普通 进程 转变 为 守护 进程 。 该 函数 在 所 有 
Unix 变 体 上 都 应 该 适合 使 用 ， 不 过 有 些 Unix 变 体 提 供 一 个 名 为 daemon 的 
C 库 函数 ， 实 现 类 似 的 功能 。BSD 和 Linux 均 提供 这 个 daemon 函 数 。 
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二 éinclixie ' ur.p. h" 

2 finclude <sysloc ,n> 

3 $Jefine MAXFD é4 

4 extern int dasmen proc; /* de-ined in srror.c */ 
5 int 

6 daeron init(corst shar *pname, int facility! 

7; 

R inl i: 

4 pid t pis: 

10 i£ ( (pid - Pork() < 9) 

1i return [-1); 

12 elss if ipid) 

13 exit(t0;; /*" parent terminates */ 
14 /* child 1 continues... */ 

15 if (setsidi! < 0) /* become session 

16 return (-1); 

"n Siqnal!SIGHUP, SIG LGM); 

18 it ( (pid = Fork(j) < 9) 

19 return (-1), 

20 elss if ipid) 

221  exit(Uj; /* child 1 terrinates */ 
z2 /* child 2 continues... */ 

23 daevoa proc = 1: /* for exx_XkX() functions */ 
24 endir(* /"); j* change working directory */ 
25 /* slcse of? file descriptors */ 

z6 fcr {i = 0; i < MANXTC; i++! 

27 close(i!; 

28 /* redirect stdin, stdout, and stderr to /dev/rull * 
29 ozeni"/dev/null", C RDONLY!; 

30 ozen;"/dev/null", Z2 3DMR!; 

31 ojen'"/dev/null", O_RDWR); 

22 open] og (prem, TOG_PTN, facilit yi? 

33 return (0!; /* success */ 


'ibdaenion inil.c 


likidazmon inii.c 











图 13-4 daemon initrAZÀ: 守护 进程 化 当前 进程 

















fork 


19-13 ”首先 调 用 fork， 然 后 终止 父 进程 ， 留 下 子 进 程 继 续 运行 。 
如 果 本 进程 是 从 前 台 作 为 一 个 shell 命 令 启 动 的 ， 当 父 进程 o shell 
就 认为 该 命令 已 执行 完毕 。 这 样子 进程 就 自动 在 后 台 运 行 。 男 外 ， 子 进 
PEAK AK T $ 父 进程 的 进程 组 ID， 不 过 它 有 自己 的 进程 ID。 这 就 保证 子 进程 
不 是 一 个 进程 组 的 头 进 程 ， 这 是 接 下 去 调用 setsid 的 必要 条 件 。 


setsid 


15-16 ”setsid 是 一 个 POSIX 函 数 ， 用 于 创建 一 个 新 的 会 话 
(session) > (APUE 第 9 章 详 细 讨 论 进程 天 系 和 会 话 。) 当前 进程 变 为 
新 会 话 的 会 话 头 进程 以 及 新 进程 组 的 进程 组 头 进程， 从 而 不 再 有 控制 终 
Üi o 





忽略 SIGHUP 信 号 并 再 次 fork 


17-21 ”忽略 SIGHUP 信 号 并 再 次 调用 fork。 该 函数 返回 时 ， 父 进程 实 
际 上 是 上 一 次 调用 forkj“ 生 的 子 进程 它 被 终止 挤 ， 留 下 新 的 子 进程 继 
续 运 行 。 再 次 fork 的 目的 是 确保 本 守护 进程 将 来 即使 打开 了 一 个 终端 设 
&. 也 不 会 自动 获得 控制 终端 。 当 没有 控制 终端 的 一 个 会 话 头 进程 打开 
一 个 终端 设备 时 (该 终端 不 会 是 当前 某 个 其 他 会 话 的 控制 终端 ) ， 该 终 
端 自动 成 为 这 个 会 话 头 进程 的 控制 终端 o 然而 再 次 调用 fork 之 后 ， 我 们 
确保 新 的 子 进程 不 再 是 一 个 会 话 头 进程， 从 而 不 能 自动 获得 一 个 控制 终 
端 。 这 里 必须 忽略 STGHuP 信 号 ， 因 为 当 会 话 头 进程 〈 即 首次 fork 产 生 的 
子 进 程 ) 终止 时 ， 其 会 话 中 的 所 有 进程 〈 即 再 次 fork 产 生 的 子 进程 ) 都 
收 到 srIGHUP 信 号 


为 错误 处 理 函 数 设 置 标识 


23 ”把 全 局 变量 daemon_proc 置 为 非 0 值 。 这 个 外 部 变量 由 我 们 的 
err XXX KA 0(D.4 节 ) 定义 ， 其 值 非 0 是 在 告知 它们 改 为 调用 sysl1og， 
以 取代 fprintf 到 标准 错误 输出 。 该 变量 省 得 我 们 从 头 到 尾 修改 程序 代 
码 ， 在 服务 器 不 是 作为 守护 进程 运行 的 场合 (例如 测试 服务 器 程序 时 ) 
B iene 在 服务 器 作为 守护 进程 运行 的 场合 调 

syslog. 








改变 工作 目录 


24 把 工作 目录 改 到 根 目 录 ， 不 过 有 些 守 护 进程 万 有 原 因 希 改 到 其 
他 某 个 目录 。 举 例 来 说 ， 打 印 机 守护 进程 可 能 改 到 打印 机 的 假 脱 机 处 理 
(spool) 目录 ， 因 为 那里 是 它 做 全 部 工作 的 地 方 。 要 是 守护 进程 产生 了 
某 个 core 文 件 ， 该 文件 就 存放 在 当前 工作 目录 中 。 改 变 工作 目录 的 为 一 
个 理由 是 ， 守 护 进程 可 能 是 在 某 个 任意 的 文件 系统 中 局 动 ， 如 果 仍 然 在 














其 中 ， 那 么 该 文件 系统 就 无 法 拆 节 (unmounting〉， 除 非 使 用 潜在 破坏 
性 的 强制 措施 。 
关闭 所 有 打开 的 描述 符 


25-27 ”关闭 本 守护 进程 从 执行 它 的 进程 (通常 是 一 个 shell) 继承 
来 的 所 有 打开 着 的 描述 符 。 问 题 是 怎样 检测 正在 使 用 的 最 大 描述 符 : 没 
有 现成 的 Unix 函 数 提 供 该 值 。 检 测 当 前 进程 能 够 打开 的 最 大 描述 符 数目 
自 有 办 法 ， 然 而 由 于 这 个 限制 可 以 是 无 限 的 ， 这 样 的 监测 也 变 得 复杂 起 
来 (参见 APUE 第 43 页 ) 。 我 们 的 解决 办 法 是 干脆 关闭 前 64 个 描述 符 ， 
即使 其 中 大 部 分 可 能 并 没有 打开 。 
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Solaris 提 供 了 一 个 名 为 closefrom 的 函数 ， 可 用 于 解决 守护 进程 的 这 


个 问题 。 








将 stdin、stdout 和 stderr 重 定向 到 /dev/nul1 


29-31 打开 /dev/nul1 作 为 本 守护 进程 的 标准 输入 、 标 准 输出 和 标 
准 错 误 输出 。 这 一 点 保 证 这 些 常 用 描述 符 是 打开 的 ， 针 对 它们 的 read 系 
统 调用 返回 0 (EOF)〉，write 系 统 调用 则 由 内 核 丢 弃 所 写 数 据 。 打 开 这 
些 描述 符 的 理由 在 于 ， 和 守护 进程 调用 的 那些 假设 能 从 标准 输入 读 或 者 往 
标准 输出 或 标准 错误 输出 写 的 库 函 数 将 不 会 因 这 些 描述 符 未 打开 而 失 
败 。 这 种 失败 是 一 种 隐患 。 要 是 一 个 守护 进程 未 打开 这 些 描述 符 ， 却 作 
为 服务 器 打开 了 与 茶 个 客户 关联 的 一 个 套 接 字 ， 那 么 这 个 套 接 字 很 可 能 
占用 这 些 描述 符 《〈 艾 如 标准 得 出 或 标准 错误 输出 的 描述 符 1 或 2) ， 这 种 
情况 下 如 果 守 护 进程 调用 诸如 perror 之 类 函数 ， 那 就 会 把 非 预期 的 数据 
发 送 给 那个 客户 。 


使 用 syslogd 处 理 错误 








32 inst 其 中 第 一 个 参数 来 目 调用 者 ， 通常 是 程序 的 名 
〈 璧 如 argv[9]) 。 第 二 个 参数 指定 把 进程 ID 加 到 每 个 日 志 消 息 中 。 

三 个 参数 向 样 由 调用 者 指定 ， 其 值 为 图 13-2 所 示 的 常 值 之 一 或 为 
(如 果 默 认 值 LoOG6_USER 可 接受 的 话 ) 。 


我 们 指出 ， 既 然 守 护 进程 在 没有 控制 终端 的 环境 下 运行 ， 它 绝 不 会 
收 到 来 自 内 核 的 SIGHuP 信 号 。 许 多 守护 进程 因此 把 这 个 信号 作为 来 自 系 
统管 理 员 的 一 个 通知 ， 表 示 其 配置 文件 已 发 生 改 动 ， 守 护 进程 应 该 重新 
读 入 其 配置 文件 。 和 守护 进程 同样 绝 不 会 收 到 来 自 内 核 的 STGINT 信 号 和 
SIGWINCH 信 号 ， 因 此 这 些 信 号 也 可 以 安全 地 用 作 系 统管 理 员 的 通知 手 
段 ， 指 示 守 护 进程 应 做 出 反应 的 某 种 变动 已 经 发 生 。 


例子 : 作为 守护 进程 运行 的 时 间 获 取 服 务 占 程序 


图 13-5 修 改 自 图 11-14 中 的 协议 无 关 时 间 获 取 服务 器 程序 ， 它 调用 我 
们 的 daemon_init 函 数 以 作为 守护 进程 运行 。 








inciddaytinetcpsevz.c 





1 include "ur:p.h" 
2 finclude time, n> 


3 ant 
4 mainiint argc. char **argv! 
5 i 


6 int listenfd, connfd; 

7 aceklen_ t zdcrlen, len; 
8 sra sockaüdr *cliaddr; 
^ char buff [MAXLIN&] ; 

0 


1 tims = ticks; 
11 if (argc « 2 | arge > 2! 
12 err zuit("usage: daytimetcpsrv2 [ «host» ] «service or ports"); 
13 daemon init(arcv[0], 0!; 
14 iE (arqc == 3} 
15 listenfd = Tcp listen(NULL, argví(1]. &sdirle3); 
16 else 
17 listsntd ~ Tcp listsn(argv[1], argv[2,, Saddrien'; 
18 cliaddr - Malise{addrlent; 
19 feet 2 Ru 
20 ler. = addrlen; 
Zl comnfd = Accepzilistenfa, cliaddr, «len); 
22 ezr msg["connection fron ès", Sock_ntopicliaddr, ler.) ; 
23 ticks = tire (NULL) ; 
34 snprintf(buff, sizeof(buff], "%.24e\r\n", ctime(uticks]): 
es Writc(conntd, bust, strlenibutf!): 
26 Closs(cormfdi! ; 
' 1 
; * i 
28 f 


iricididaytimetcpsnvi.c 
图 13-5 ”作为 守护 进程 运行 的 协议 无 关 时 间 获 取 服 务 器 程序 


改动 的 地 方 只 有 两 个 ， 在 程序 开始 执行 处 尽早 调用 我 们 的 
daemon_init 函 数 ， 再 把 输出 客户 IP 地 址 和 端口 号 的 printf 改 为 调用 我 们 
的 err_msg 函 数 。 事 实 上， 如 果 想 要 一 个 程序 作为 守护 进程 运行 ， 我 们 
“a a 改 而 调用 我 们 的 err_msg 
函数 。 


注意 在 调用 daemon_init 之 前 我 们 是 如 何 检查 argc 并 输出 合适 的 用 
法 消息 的 。 这 么 做 使 得 局 动 本 守护 进程 的 用 户 一 旦 提供 数目 不 正确 的 命 
令 行 参数 就 能 立即 得 到 反馈 。 调 用 daemon_init 之 后 ， 所 有 后 续 出 错 消息 
进入 syslog， 不 再 有 作为 标准 错误 输出 的 控制 终端 可 用 。 


如 果 先 在 主机 1inux 上 运行 本 程序 ， 再 从 同一 个 主机 进行 连接 〈 臂 
如 指定 连接 到 localhost) ， 然 后 检查 /var/adm/ymessages 文 件 〈 设 施 
为 L0G_USER 的 消息 都 发 送 到 该 文件 ) ， 就 可 能 找到 类 似 如 下 的 日 志 消 














Jun 10 09:54:37 linux daytimetcpsrv2[24288]: 
connection from 127.0.0.1.55862 


(本 行 太 长 已 做 折 行 处 理 。〉 其 中 日 期 、 时 间 和 主机 名 由 syslogd 
守护 进程 自动 冠 于 日 志 消 息 之 前 。 


13.5 ”inetd 守 护 进程 


典型 的 Unix 系 统 可 能 存在 许多 服务 器 ， 它 们 只 是 等 待 客户 请 求 的 到 
达 ， 例 如 FTP、Telnet、Rlogin、TFTP 等 等 。4.3BSD 面 世 之 前 的 系统 
中 ， 所 有 这 些 服务 都 有 一 个 进程 与 之 关联 。 这 些 进 程 都 是 在 系统 自 举 阶 
段 从 /etc/rc 文 件 中 启动 ， 而 且 每 个 进程 执行 几乎 相同 的 启动 任务 : 创 
吾 一 个 套 接 字 ， 把 本 服务 器 的 众所周知 端口 捆绑 到 该 套 接 字 ， 等 待 一 个 
连接 ( 铬 是 TCP) 或 一 个 数据 报 〈 若 是 UDP) ， 然 后 派生 子 进程 。 子 进 
父 进程 则 继续 等 待 下 一 个 客户 请 求 。 这 个 模型 存在 

上 问题 。 
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( ”所 有 这 些 守 护 进程 含有 几乎 相同 的 局 动 代码 ， 既 表现 在 创建 套 
D 也 表现 在 演变 成 守护 进程 上 【类似 我 们 的 daemon_init 函 
BL) 。 


(2) 每 个 守护 进程 在 进程 表 中 占据 一 个 表 项 ， 然 而 它们 大 部 分 时 间 
处 于 睡眠 状态 。 


4.3BSD 版 本 通过 提供 一 个 因特网 超级 服务 器 〈 即 inetd 守 护 进 程 ) 
使 上 述 问题 得 到 简化 。 基 于 TCP 或 UDP 的 服务 器 都 可 以 使 用 这 个 守护 进 
程 。 它 是 这 样 解决 上 述 两 个 问题 的 。 


(1) 通过 由 inetd 处 理 普通 守护 进程 的 大 部 分 局 动 细节 以 简化 守护 程 
序 的 编写 。 这 么 一 来 每 个 服务 器 不 再 有 调用 daemon_init 函 数 的 必要 。 


(2) 单个 进程 Cinetd) 就 能 为 多 个 服务 等 待 外 来 的 客户 请 求 ， 以 此 
取代 每 个 服务 一 个 进程 的 做 法 。 这 么 做 减少 了 系统 中 的 进程 总 数 。 


inetd 进 程 使 用 我 们 随 daemon_init 函 数 讲解 的 技巧 把 自己 演变 成 一 
个 守护 进程 。 它 接着 读 入 并 处 理 自己 的 配置 文件 。 通 党 
是 /etc/inetd.conf 的 配置 文件 指定 本 超级 服务 器 处 理 哪 些 服 务 以 及 当 一 
个 服务 请 求 到 达 时 该 怎么 做 。 访 文件 中 每 行 包含 的 字段 如 图 13-6 所 示 。 











service-name OME fetc/services% fit eM 
socket-type stream 《对 于 TCP) 或 gram“ 对 于 UDP) 
protocol 必须 在 /et=/Protozols 文 信 中 定义 : tep 或 wap 


wait-flag 对 于 TCP 一 般 为 nowait， 对 于 UDP 一 般 为 wait 
login-namec FA /etc/passwall' H^ A. —M root 
server-program UO exec) sc MGE ES 
server-program-argumenis WWtexecitEm a 178 





图 13-6 inetd.conf 文 件 中 的 字段 
下 面 是 inetd,conf 文 件 中 作为 例子 的 若干 和 


ftp Stream tcp nowait root /usr/bin/ftpd ftpd -1 

telnet stream tcp nowait root /usr/bin/telnetd telnetd 

login stream tcp nowait root /usr/bin/rlogind rlogind - 

tftp dgram udp wait nobody  /usr/bin/tftpd tftpd -s PD 


当 inetd 调 用 exec 执 行 茶 个 服务 露 程 序 时 ， 该 服务 器 的 真实 名 字 总 
是 作为 程序 的 第 一 个 参数 传递 。 


图 13-6 及 其 示例 行 仅 仅 是 例子 而 已 。 许 多 三 商 为 inetd 上 自行 增设 了 
新 的 特性 。 例 如 在 TCP 服 务 器 和 UDP 服务 器 之 外 ， 添 加 处 理 RPC 服 务 器 
的 能 力 ; 又 如 在 TCP 和 UDP 之 外 ， 添 加 处 理 其 他 协议 的 能 力 。 男 外 ， 调 
用 exec 指 定 的 路 径 名 和 服务 器 的 命令 行 参 数 也 取决 于 实现 。 
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wait-flag^f-Et TR E 易 于 混 消 。 总 的 来 说 ， 它 指定 由 inetd 启 动 的 守护 
进程 是 否 有 意 接管 与 之 关联 的 监听 套 接 字 。UDP 服 务 没 有 分 离 的 监听 套 
接 字 和 接受 套 接 字 ， 因 此 几乎 总 是 配置 成 wait。TCP 服 务 既 支持 wait 也 
支持 nowait， 具 体 取决 于 守护 程序 的 开 太 人 员 ， 不 过 nowait 更 为 常见 。 


IPV6 与 /etc/inetd.conf 的 交互 取决 于 各 个 厂商 的 实现 ， 并 要 求 特别 
关注 其 中 的 细节 。 有 些 厂商 使 用 名 为 tcp6 或 udp6 的 protocol 字 上 段 表 示 应 
为 相应 服务 创建 一 个 IPv6 套 接 字 。 有 些 厂商 使 用 名 为 tcp46 或 udp46 的 
protocol 字 段 表示 相应 服务 希望 所 创建 的 套 接 字 同 时 支持 IPv6 客 户 和 IPv4 
客户 。 这 些 特殊 协议 名 通常 不 出 现在 /etc/protocols 文 件 中 。 























图 13-7 展 示 了 inetd 守 护 进程 的 工作 流程 。 


socket Í) 


WME fect /inetd. conf 


交 件 中 列 出 的 服务 





listení) 


[如果 是 TCP 套 接 字 ) 


selecti) 


eh) BREE 









accept Í} 


(UPET EES) | 














closet EHE 4h 
AT Aa 


elese 忆 连接 套 接 字 
(如果 是 TCP ) 








VERE TAA Taco 
FO, DD, 
KK Icloseli hes 






setgid() 
&eLuidt) 


如果 个 是 *ocz ) 


exec {)} 服务 器 程序 


图 13-7 ”inetd 的 工作 流程 


(1) 在 启动 阶段 ， 读 入 /etc/inetd.conf 文 件 并 给 该 文件 中 指定 的 每 
个 服务 创建 一 个 适当 类 型 ( 字 节 流 或 数据 报 ) 的 套 接 字 。inetd 能 够 处 
理 的 服务 器 的 最 大 数目 取 诀 于 inetd 能 够 创建 的 描述 符 的 最 大 数目 。 新 
人 





(2) ”为 每 个 套 接 字 调用 bind， 指 定 捆绑 相应 服务 器 的 众所周知 端口 
和 通 配 地 址 。 这 个 TCP 或 UDP 端口 号 通过 调用 getservbyname 获 得 ， 作 为 
函数 参数 的 是 相应 服务 器 在 配置 文件 中 的 service-name 字 段 和 protocol 字 


段 。 


(3) 对 于 每 个 TCP 套 接 字 ， 调 用 listen 以 接受 外 来 的 连接 请 求 。 对 于 
数据 报 套 接 字 则 不 执行 本 步 又 。 


(4) “创建 完毕 所 有 套 接 字 之 后 ， 调 用 select 等 待 其 中 任何 一 个 套 接 
字 变 为 可 读 。 回 顾 6.3 节 ， 我 们 知道 TCP 监 听 套 接 字 将 在 有 一 个 新 连接 准 
备 好 可 被 接受 时 变 为 可 读 ，UDP 套 接 字 将 在 有 一 个 数据 报到 达 时 变 为 可 
人 内 部 ， 等 待 某 个 套 接 字 
变 为 可 读 。 


(5) “ 当 select 返 回 指出 某 个 套 接 字 已 可 读 之 后 ， 如 果 该 套 接 字 是 一 
个 TCP 套 接 字 ， 而 且 其 服务 占 的 wait-flag 值 为 nowait， 那 就 调用 accept 接 
受 这 个 新 连接 。 


(6) inetd 守 护 进程 调用 fork 派 生 进程 ， 并 由 子 进程 处 理 服务 请 求 。 
这 一 点 类 似 标准 的 并 发 服务 器 〈4.8 节 ) 。 


子 进程 关闭 除 要 处 理 的 套 接 字 摘 述 符 之 外 的 所 有 描述 符 : 对 于 TCP 
服务 器 来 说 ， 这 个 套 接 字 是 由 accept 返 回 的 新 的 已 连接 套 接 字 ， 对 于 
UDP 服务 器 来 说 ， 这 个 套 接 字 是 父 进 程 最 初创 建 的 UDP 套 接 字 。 子 进程 
调用 dup2 三 次 ， 把 这 个 竺 处 理 套 接 字 的 描述 符 复 制 到 描述 符 0、1 和 
2〈 标 准 输入 、 标 准 输出 和 标准 错误 输出 ) ， 然 后 关闭 原 套 接 字 描 述 
符 。 子 进程 打开 的 描述 符 于 是 只 有 0、1 和 2。 子 进程 自 标准 输入 读 实 际 
是 从 所 处 理 的 套 接 字 读 ， 往 标准 输出 或 标准 错误 输出 写实 际 上 是 往 所 处 
理 的 套 接 字 写 。 子 进程 根据 它 在 配置 文件 中 的 login-name 字 上 段 值 ， 调 
用 getpwnam 获 取 对 应 的 保密 字 文 件 表 项 。 如 果 1ogin-name 字 段 值 不 
是 root， 子 进程 就 通过 调用 setgid 和 setuid 把 自身 改 为 指定 的 用 户 。 
(既然 inetd 进 程 以 值 为 0 的 用 户 ID 运 行 ， 其 子 进程 将 跨 fork 调 用 继承 这 












































个 用 户 ID， 因 而 能 够 变 成 所 选 定 的 任何 用 户 。) 


子 进 程 然 后 调用 exec 执 行 由 相应 的 server-program 字 段 指定 的 程序 
来 具体 处 理 请 求 ， 相 应 的 server-program-arguments 字 段 值 则 作为 命令 行 
参数 传递 给 该 程序 。 
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(7) 如 果 第 5 步 中 select 返 回 的 是 一 个 字 节 流 套 接 字 ， 那 么 父 进程 必 
须 关 闭 已 连接 套 接 字 《就 像 标准 并 发 服务 器 那样 ) 。 父 进程 再 次 调 
用 select， 等 竺 下 一 个 变 为 可 读 的 套 接 字 。 


让 我 们 更 仔细 地 碍 看 inetd 中 发 生 的 描述 符 处 理 。 图 13-8 展 示 了 当 
有 一 个 来 自 某 个 FTP 客 户 的 新 连接 请 求 到 达 时 inetd 中 的 描述 符 








ins-d 











HIETCP 121 = 
的 连接 请求 Ç TCP3m O21 
scd TCPJ E123 等 待 变 成 可 读 的 
WS MK TOP £d 
‘eel 和 UDP 套 接 字 
TCP [160 
\ " — 
" acczct 返 回 的 已 


~ - E] , 
~> CP aig LI? ey Re MAN 
NUES 六 连接 TCP 套 污 字 





图 13-8 ”目标 为 TCP 端 口 21 的 连接 请 求 到 达 时 的 inetd 描 述 符 


这 个 连接 请 求 指 回 TCP 端 口 21， 不 过 accept 为 它 创 建 了 一 个 新 的 已 
连接 套 接 字 。 


图 13-9 展 示 了 在 调用 过 fork， no 车 接 套 接 字 描述 
之 外 的 所 有 描述 符 之 后 ， 子 进程 中 的 描述 
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inetd (FIERE) 








~ ee 
accept 返 回 的 已 


| J 连接 TCP 套 接 字 





"RIZ PK ae E 
到 客户 的 连接 TCP% 021 








Kl13-9 ” 子 进程 中 的 inetd 描 述 符 


下 一 步 是 子 进程 把 这 个 已 连接 套 接 字 描 述 符 复 制 到 描述 符 0、1 和 
2， 然 后 关闭 原 描 述 符 。 图 13-10 展 示 了 此 时 的 描述 符 。 


inetd (THLE) 







fd0 【标准 输入 ) 
fal (标准 输出 ) 


fd2 【标准 错 误 
输出 》 










exec Ji 5 ( » 
服务 器 程序 








图 13-10 ”dup2 后 子 进程 中 的 inetd 描 述 符 

子 进程 接着 调用 exec。 回 顾 4.7 节 ， 我 们 知道 通常 情况 下 所 有 描述 符 

跨 exec 保 持 打 开 ， 因 此 exec 加 载 的 实际 服务 器 程序 使 用 描述 符 0、1 或 2 
之 一 与 客户 通信 。 服 务 器 中 应 该 只 打开 这 些 摘 述 符 。 


上 述 情 形 处 理 的 是 配置 文件 中 指定 了 nowait 标 志 的 服务 器 。 对 于 





TCP 服 务 这 是 典型 的 设置 ， 意 味 着 inetd 不 必 等 待 某 个 子 进程 终止 就 可 
以 接受 对 于 该 子 进 程 所 提供 之 服务 的 另 一 个 连接 。 如 果 对 于 某 个 子 进 程 
所 提供 之 服务 的 另 一 个 连接 确实 在 该 子 进程 终止 之 前 到 达 ， 那 么 一 旦 父 
进程 再 次 调用 select， 这 个 连接 就 立即 返回 到 父 进程 。 前 面 列 出 的 第 
p CON 于 是 派生 出 另 一 个 子 进 程 来 处 理 这 个 
新 请 求 。 


给 一 个 数据 报 服务 指定 wait 标 志 导 致 父 进程 执行 的 步骤 发 生变 化 。 
这 个 标志 要 求 inetd 必 须 在 这 个 套 接 字 再 次 成 为 select 调 用 的 候选 套 接 
字 之 前 等 待 当 前 服务 该 套 接 字 的 子 进 程 终 止 。 发 生 的 变化 有 以 下 几 后 。 


(1) ” fork 返回 到 父 进程 时 ， 父 进程 保存 子 进程 的 进程 DD。 这 么 做 使 
得 父 进程 能 够 通过 查看 由 waitpid 返 回 的 值 确定 这 个 子 进程 的 终止 时 
间 。 

















(2) 父 进程 通过 使 用 Fp_cLR 宏 关闭 这 个 套 接 字 在 select 所 用 描述 符 集 
中 对 应 的 位 ， 达 成 在 将 来 的 select 调 用 中 禁止 这 个 套 接 字 的 目的 。 这 一 
点 意味 着 子 进 程 将 接管 该 套 接 字 ， 直 到 上 自身 终止 为 止 。 


(3) 当 子 进程 终止 时 ， 父 进程 被 通知 以 一 个 SIGcHLD 信 号 ， 而 父 进程 
的 信号 处 理 函 数 将 取得 这 个 子 进程 的 进程 ID。 父 进程 通过 打开 相应 的 套 
接 字 在 select 所 用 描述 符 集 中 对 应 的 位 ， 使 得 该 套 接 字 重新 成 为 select 
的 候选 套 接 字 。 
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数据 报 服务 右 必 须 接 管 其 侠 接 字 直 至 自身 终止 ， 以 防 inetd 在 此 期 
间 让 select 检 查 该 套 接 字 的 可 读 性 (也 就 是 等 待 来 自任 何 客户 的 男 一 个 
数据 报 ) ， 这 是 因为 每 个 数据 报 服务 器 只 有 一 个 套 接 字 ， 而 不 像 每 个 
TCP 服 务 器 那样 既 有 一 个 监听 套 接 字 ， 对 于 每 个 客户 义 各 有 一 个 已 连接 
套 接 字 。 如 果 inetd 不 关闭 对 于 茶 个 数据 报 套 接 字 的 可 读 条 件 检查 ， 而 
且 父 进程 Cinetd) 先 于 服务 该 套 接 字 的 子 进 程 执行 ， 那 么 引发 本 
次 fork 的 那个 数据 报 仍 然 在 套 接 字 接 收 缓冲 区 中 ， 导 致 select 再 次 返回 
可 读 和 条件， 致使 inetd 再 次 fork 另 一 个 〈 不 必要 的 ) 子 进程 。inetd 必 须 
在 得 知 子 进 程 已 从 套 接 字 接 收 队 列 中 读 走 该 数据 报 之 前 忽略 这 个 数据 报 
套 接 字 。jinetd 得 知 子 进 程 何 时 使 用 完 其 套 接 字 的 手段 是 通过 接收 表明 
子 进程 已 终止 的 STGCHLD 信 号 。 我 们 将 在 22.7 市 展示 这 样 的 一 个 例子 。 
































图 2-18 中 介绍 的 5 个 标准 因特网 服务 是 由 inetd 内 部 处 理 的 〈 见 习题 
13.2) 4 


既然 蔡 一 个 TCP 服 务 器 调用 accept 的 进程 是 inetd， 由 inetd 启 动 的 
真正 服务 器 通常 通过 调用 getpeername 获 取 客 户 的 IP 地 址 和 端口 号 。 回 顾 
图 4-18， 我 们 知道 fork 和 exec 发 生 之 后 〈 就 如 inetd) ， 真 正 的 服务 器 获 
RAP 身份 的 唯一 方法 是 调用 getpeername。 


inetd 通 常 不 适用 于 服务 密集 型 服务 器 ， 其 中 值得 注意 的 有 邮件 服 
务 器 和 Web 服 务 器 。 举 例 来 说 ,我们 在 4.8 节 介绍 过 的 sendmail 通 党 作为 
一 个 标准 的 并 发 服务 器 来 运行 。 这 种 模式 下 每 个 客户 连接 的 进程 控制 开 
销 仅仅 是 一 个 fork， 而 由 inetd 启 动 的 每 个 TCP 服 务 器 的 开销 是 一 个 fork 
加 一 个 exec。 而 Web 服 务 器 则 使 用 多 种 技术 把 每 个 客户 连接 的 进程 控制 
开销 降低 到 最 小 ， 有 具体 在 第 30 章 中 讨论 。 


在 Linux 等 系统 上 ， 称 为 xinetd 的 扩展 式 因特网 服务 守护 进程 业已 
常见 。xinetd 提 供与 inetd 一 致 的 基本 服务 ， 不 过 还 提供 数目 众多 的 其 
他 特性 ， 包 括 根 据 客 户 的 地 址 登记 、 接 受 或 拒绝 连接 的 选项 ， 每 个 服务 
一 个 配置 文件 的 做 法 ， 等 等 。 我 们 不 深入 讨论 xinetd， 因 为 它 背 后 的 基 
本 超级 服务 器 概念 和 inetd 是 一 样 的 。 














13.6 daemon inetdrA2W 


图 13-11 给 出 了 一 个 名 为 daemon_inetd 的 函数 ， 可 用 于 已 知 由 inetd 
启动 的 服务 器 程序 中 。 





- fibdaenton_inetd.c 
7 incluir "unp.h* 


4 #incluce <syslog.h> 

2 extern int daemon proc; /* Gefired in error.c */ 

4 void 

5 dasmen inecd(const char *pnane, int facility) 

€ { 

H daemon proc - 1; /* for our err XXX(! functions */ 
t openlos{(pnama, LOG PID, facility); 

a 


fib'daemon inetd.c 














图 13-11 daemon inetdPKEZ: 守护 进程 化 由 inetd 运 行 的 进程 
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本 函数 与 daemon_init 相 比 显 得 微不足道 ， 因 为 所 有 和 守护 进程 化 步 
又 已 由 inetd 在 局 动 时 执行 。 本 函数 的 任务 仅仅 是 为 错误 处 理 函 数 〈 图 
D-3) 设置 daemon_proc 标 志 ， 并 以 与 图 13-4 中 的 调用 相同 的 参数 调 
用 openlog。 


例子 : 由 inetd 作 为 守护 进程 司 动 的 时 间 获 取 服 务 
ait hE FF 
”图 13-12 给 出 的 时 间 获取 服务 器 程序 修改 自 图 13-5， 它 可 以 由 inetd 


启动 。 


ineiddavlimetcpsrvi.c 





1 éinclule "urp.h" 


2 finclude etime. n> 


3 int 

4 nainlins argc, char **argv! 

si 

6 eccklen t ler; 

" strac: sockaddr *cliaddr; 

A char buf f (MaX- TNF] ; 

9 tina = ticks; 

10 daemon inetd(arqv[0], 0); 

11 cliaddr - Mall2cí(sizeofistzuct sockaddr storsgs:), 

12 len = sizen; (struct sockaddr storage]: 

13 Gatoeername (0, cliadór, aleni; 

14 crr ma3q('conrection trom *5', Sock ntop(cliaddr, lent); 

15 ticks = tive (NULD); 

16 snprintf(biff, sizeo*ibo*f;, "X.24sWrin", crime (sricks!): 
TY Wri-ce(C, buff, setrleníbulf;); 

18 Close (01; /* close TCE rzounec-ia 5/7 
19 exitio); 


irieid/daytimeicpsevà3.c 


图 13-12 ”可 由 inetd 启 动 的 协议 无 关 时 间 获 取 服 务 嚣 程序 


这 个 程序 有 两 个 大 的 改动 。 首 先 ， 所 有 和 套 接 字 创 建 代 人 码 〈 即 对 
tcp_listen 和 accept 的 调用 )〉 都 消失 了 。 这 些 步 又 改 由 inetd 执 行 ， 我 们 
使 用 摘 述 符 0《〈 标 准 输入 ) 指 代 已 由 inetd 接 受 的 TCP 连 接 。 其 次 ， 无 限 
的 for 循 环 也 消失 了 ， 因 为 本 服务 器 程序 将 针对 每 个 客户 连接 启动 一 
次 。 服 务 完 当前 客户 后 进程 就 终止 。 





调用 getpeername 


11-44 ”既然 未 曾 调 用 tcp_listen， 我 们 不 知道 由 它 返 回 的 套 接 字 地 
址 结构 的 大 小 ， 而 且 既 然 未 曾 调用 accept， 我 们 也 不 知道 客户 的 协议 地 
址 。 我 们 于 是 使 用 sizeof (struct sockaddr_storage) 给 套 接 字 地 址 结 
构 分 配 一 个 缓冲 区 ， 并 以 描述 符 0 为 第 一 个 参数 调用 getpeername。 
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为 了 在 我 们 的 Solaris 系 统 上 运行 本 例子 程序 ， 我 们 首先 赋予 本 服务 
一 个 名 字 和 一 个 端口 ， 将 把 如 下 行 加 到 /etc/services 文 件 中 : 


mydaytime 9999/tcp 


接着 把 如 下 行 加 到 /etc/inetd.conf 文 件 中 : 


mydaytime stream tcp nowait andy 
/home/andy/daytimetcpsrv3 daytimetcpsrv3 


(本 行 太 长 已 做 折 行 处 理 。) 把 可 执行 文件 放 到 指定 的 位 置 后， 我 
们 给 inetd 发 送 一 个 sIGHUP 信 和 号， 告知 它 重新 读 入 其 配置 文件 。 紧 接着 
我 们 执行 netstat 命 令 验证 inetd 已 在 TCP 端 口 9999 上 创建 了 一 个 监听 套 


py: 


solaris % netstat -na | grep 9999 
k * 


* ,9999 0 © 49152 © LISTEN 


然后 从 另 一 个 主机 访问 这 个 服务 器 : 


linux % telnet solaris 9999 
Trying 192.168.1.20... 

Connected to solaris. 

Escape character is '^]'. 

Tue Jun 10 11:04:02 2003 
Connection closed by foreign host. 


/var/adm/messages 文 件 ( 这 是 根据 /etc/syslog.conf 文 件 ， 
将 LoG_USsER 设 施 的 消息 登记 到 其 中 的 文件 ) 中 有 如 下 的 日 志 消 筷 : 


Jun 10 11:04:02 solaris daytimetcpsrv3[28724]: connection from 
192.168.1.10.58145 


13.7 "^£ 


守护 进程 是 在 后 台 运 行 并 独立 于 所 有 终端 控制 的 进程 。 许 多 网 络 服 
务 右 作为 守护 进程 运行 。 守 护 进 程 产 生 的 所 有 输出 通常 通过 调用 syslog 
函数 发 送 给 syslogd 守 护 进 程 。 系 统管 理 员 可 根据 发 送 消 息 的 守护 进程 
以 及 消息 的 严重 级 别 ， 完 全 控制 这 些 消 息 的 处 理 方式 。 


启动 任意 一 个 程序 并 让 它 作 为 守护 进程 运行 需要 以 下 步骤 : 调 
用 fork 以 转 到 后 台 运 行 ， 调 用 setsid 建 立 一 个 新 的 POSIX 会 话 并 成 为 会 
话 头 进程 ， 再 次 fork 以 避免 无 意 中 获 得 新 的 控制 终端 ， 改 变 工 作 目 录 和 
文件 创建 模式 掩 码 ， 最 后 关闭 所 有 非 必 要 的 摘 述 符 。 我 们 的 
daemon_init 函 数 处 理 所 有 这 些 细节 。 

许多 Unix 服 务 器 由 inetd 守 护 进 程 启动 。 它 处 理 全 部 守护 进程 化 所 
需 的 步 又 ， 当 启动 真正 的 服务 器 时 ， 套 接 字 已 在 标准 输入 、 标 准 输出 和 


标准 错误 输出 上 打开 。 这 样 我 们 无 需 调用 socket、bind、1isten 和 
accpet， 因 为 这 些 步骤 已 由 inetd 处 理 。 
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习题 


13.1 图 13-5 中 如 果 我 们 把 daemon_init 调 用 挪 到 检查 命令 行 参 数 之 
前 ， 使 得 err_quit 调 用 位 于 daemon_init 调 用 之 后 ， 那 会 发 生 什 么 ? 


13.20 ”对 于 由 inetd 内 部 处 理 的 5 个 服务 (图 2-18)， ， 考 虑 每 个 服务 
各 有 一 个 TCP 版 本 和 一 个 UDP 版 本 ， 这 样 总 共 10 个 服务 器 的 实现 中 ， 哪 
些 用 到 了 fork 调 用 ， 哪 些 不 需要 fork 调 用 ? 


13.3 ”如 果 我 们 创建 一 个 UDP 套 接 字 ， 把 端口 7 (图 2-18 中 标准 echo 
服务 器 所 用 端口 ) 捆绑 到 其 上 ， 然 后 把 一 个 UDP 数据 报 发 送 到 某 个 标准 
chargen 服 务 器 ， 将 会 发 生 什 么 ? 


13.4 Solaris 2.x 关 于 inetd 的 手册 页 面 讲述 了 一 个 -t 标 志 ， 它 会 
使 inetd 调 用 syslog (所 用 设施 为 Lo6_DAEMON， 级 别 为 LoG_NOTICE) 
为 inetd 处 理 的 任何 TCP 服 务 登 记 客 户 的 IP 地 址 和 端口 号 。inetd 是 如 何 
取得 本 信息 的 ? 


该 手册 页 面 还 说 inetd 不 能 为 所 处 理 的 UDP 服务 执行 同样 操作 。 为 
什么 ”有 什么 办 法 可 以 绕 过 对 于 UDP 服务 的 这 个 限制 呢 ? 
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注意 区 别 这 里 的 流 〈streams) 和 我 们 一 直 在 使 用 的 字 节 流 

(stream) 。 前 者 是 一 种 访问 驱动 程序 (driver) 的 方法 ， 在 本 书 第 31 章 
中 介绍 ， 也 称 为 STREAMS; 后 者 是 与 数据 报 相 对 立 的 数据 传送 方式 ， 
我 们 把 它 译 成 字 节 流 一 方面 避免 了 与 流 相 混淆 ， 男 一 方面 强调 它 是 无 记 
录 边 界 的 数据 流 〈 不 同 于 面 同 记录 的 数据 流 ， 例 如 SCTP 关 联 中 的 各 个 
流 ) ， 或 者 说 它 的 记录 单元 是 无 可 最 小 的 字 节 《而 面 癌 记录 数据 流 的 记 
录 单 元 往往 远 不 止 一 个 字 节 ) 。 另 外 一 个 应 该 避免 混 消 的 概念 是 标准 
IO 函数 库 中 的 标准 IO 流 (standard I/O streams) ， 它 在 本 书 中 出 现 得 极 
少 。 多 媒体 通信 中 还 有 流 媒 体 的 概念 。 译 者 注 


包 请 留意 openlog 的 大 多 数 实现 仅仅 保存 一 个 指 加 iaent 字 符 串 的 指针 ; 
它们 不 复制 这 个 字符 串 。 这 融 是 说 该 字符 串 不 应 该 在 栈 上 分 配 《〈 目 动 变 




















量 就 是 这 样 ) ， 因 为 以 后 调用 syslog 时 如 果 相 应 的 栈 帧 被 弹 走 了 ， 那 么 
由 openlog 保 存 的 指针 将 不 再 指向 原 iaent 字 符 串 。 Stevens 注 





14 AIOR% 


14.1 概述 


本 章 讨论 我 们 笼统 地 归 为 “高 级 MO” 的 各 个 函数 和 技术 。 首 先是 在 
IO 操作 上 设置 超时 ， 这 里 有 三 种 方法 。 然 后 是 read 和 write 这 两 个 函数 
的 三 个 变 体 : recv 和 send 人 允许 通过 第 四 个 参数 从 进程 到 内 核 传 递 标 
志 ; readv 和 writev 人 允许 指定 往 其 中 输入 数据 或 从 其 中 输出 数据 的 缓冲 
[X|H] & ; recvmsg 和 sendmsg 绪 合 了 其 他 1/O 函 数 的 所 有 特性 ， 并 具备 接收 
和 发 送 辅助 数据 的 新 能 


我 们 还 在 本 章 中 考 夸 如 何 确 定 套 接 字 接 收 缓冲 区 中 的 数据 量 ， 如 何 
在 套 接 字 上 使 用 C 的 标准 VO 函数 库 ， 并 讨论 等 得 事 件 的 一 些 高 级 方法 。 





14.2 EFEN 

在 涉及 套 接 字 的 IO 操作 上 设置 超时 的 方法 有 以 下 3 种 。 

(1) 调用 alarm， 它 在 指定 超时 期 满 时 产生 SITGALRM 信 和 号。 这 个 方法 涉 
及 信号 处 理 ， 而 信号 处 理 在 不 同 的 实现 上 存在 差异 ， 而 且 可 能 干扰 进程 
中 现 有 的 alarm 调 用 。 


(2) 在 select 中 阻塞 等 待 /O (select 有 内 置 的 时 间 限 制 》， 以 此 代 
蔡 直 接 阻 塞 在 read 或 write 调用 上 。 
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(3) 使 用 较 新 的 So_RcvTIME0 和 so_SNDTIME0 套 接 字 选 项 。 这 个 方法 的 
问题 在 于 并 非 所 有 实现 都 支持 这 两 个 套 接 字 选项 。 


上 述 三 个 技术 都 适用 于 输入 和 输出 操作 (例如 read、write 及 其 诸 
如 recvfrom、sendto 之 类 的 变 体 ) ， 不 过 我 们 依然 期 竺 可 用 于 connect 的 
技术 ， 因 为 TCP 内 置 的 connect 超 时 相当 长 (典型 值 为 75 秒 钟 ) 。select 
可 用 来 在 connect 上 设置 超时 的 先决 条 件 是 相应 套 接 字 处 于 非 阻塞 模式 
〈 详 见 16.3 节 ) ， 而 那 两 个 套 接 字 选 项 对 connect 并 不 适用 。 我 们 还 指 
出 ， MABRE PERIERE, EZARREN TERFN 
述 符 。 


我 们 接 下 去 给 出 使 用 这 三 个 技术 的 例子 。 
14.2.1 使 用 SITGALRM 为 connect 设 置 超时 
图 14-1 给 出 了 我 们 的 connect_timeo 国 数 ， 它 以 由 调用 者 指定 的 超时 


上 限 调用 connect。 它 的 前 3 个 参数 用 于 调用 connect， 第 四 个 参数 是 等 
待 的 秒 数 。 











liL/conaeci. tines.c 





1 #incluce "unup.h* 
2 static void connect alarmilrt); 


à int 
4 connect t-Tmec;in- sockzz, const SA *saptr, sccklen t salen, irt nsec) 


s 1 


É Sigfunc *sigfunc: 
int n; 
6 sigfunc - Siqnal(SIGALRM, connect alazmi!; 
© i= (slarm(asec) t= Gi 
10 err msgí"connect timec: alarm was already sez"); 
11 i= ( (n = commectisockfd, esptr, szalen)) < 0) { 
12 ciose isockid) ; 
13 if /errno == EINTR) 
14 «rrno = ETIMEDOUT; 
15 } 
16 elarzmu(C|; /* turn off tre alarm */ 
17 Signal (SIGALRM, sigfunc): /* restore previous signal handier */ 
ls return (n) : 
is ] 


20 static void 
21 connect atarrlin- signo) 


23 return; /* Just interrupt the connect() */ 


24 ] 
lib/eonnéct imec.c 


图 14-1 和 带 超 时 的 connect 





建立 信号 处 理 函 数 


8 为 STGALRM 建 立 一 个 信号 处 理 函 数 。 现 有 信号 处 理 函 数 〈《 如 果 有 
的 话 ) 得 以 保存 ， 以 便 在 本 函数 结束 时 恢复 它 。 


设置 报警 〈 时 钟 ) 


9-10 ”把 本 进程 的 报警 时 钟 设置 成 由 调用 者 指定 的 秒 数 。 如 果 此 前 
己 经 给 本 进程 设置 过 报警 时 钟 ， 那 么 alarm 的 返回 值 是 这 个 报警 时 钟 的 
当前 剩余 秒 数 ， 人 否则 alarm 的 返回 值 为 0。 知 是 前 一 种 情况 ， 我 们 还 显示 
个 警告 信息 ， 因 为 我 们 推翻 了 先前 设置 的 报警 时 钟 〈 见 习题 14.2) 。 





调用 connect 


11-15 “调用 connect， 如 果 本 调用 被 中 断 〈 即 返回 EINTR 错 误 ) ， 那 
就 把 errno 值 改 设 为 ETIME0UT， 同 时 关闭 套 接 字 ， 以 防 三 路 握手 继续 进 
IT 








关闭 alarm 并 恢复 原来 的 信号 处 理 函数 


16-18 ”通过 以 0 为 参数 值 调 用 alarm 关 闭 本 进程 的 报警 时 钟 ， 同 时 
恢复 原来 的 信和 号 处 理 函 数 〈 如 果 有 的 话 ) 。 


处 理 SIGALRM 


20-24 ”信和 号 处 理 函 数 只 是 简单 地 返回 。 我 们 设想 本 return 语 句 将 
中 断 进 程 主 控制 流 中 那个 未 决 的 connect 调 用 ， 使 得 它 返回 一 个 EINTR 错 
误 。 回 顾 我 们 的 signal 函 数 〈 图 5-6) ， 当 被 捕获 的 信号 为 SIGALRM 
时 ，signal 函 数 不 设置 SA_RESTART 标 志 。 


就 本 例子 我 们 指出 两 点 ， 第 一 点 是 使 用 本 技术 总 能 减少 connect 的 
超时 期 限 ， 但 是 无 法 延长 内 核 现 有 的 超时 。 源 自 Berkeley 的 内 核 中 
connect 的 超时 通常 为 75s。 在 调用 我 们 的 函数 时 ， 可 以 指定 一 个 比 75 小 
的 值 “ 如 10) ， 但 是 如 果 指 定 一 个 比 75 大 的 值 (如 80) ， 那 么 connect 
仍 将 在 75s 后 发 生 超 时 。 


另 一 点 是 我 们 使 用 了 系统 调用 Cconnect) 的 可 中 断 能 力 ， 使 得 它 
们 能 够 在 内 核 超时 发 生 之 前 返回 。 这 一 点 不 成 问题 的 前 提 是 : 我 们 执行 
的 是 系统 调用 ， 并 且 能 够 直接 处 理由 它们 返回 的 EINTR 错 误 。 我 们 将 在 
29.7 节 页 到 一 个 也 执行 系统 调用 的 库 函 数 ， 不 过 系统 调用 返回 EINTR 时 这 
个 库 函 数 重 新 执行 同一 个 系统 调用 。 在 这 种 情形 下 我 们 仍 能 使 
用 SIGALRM， 不 过 将 在 图 29-10 中 看 到 ， 我 们 还 不 得 不 使 用 sigsetjmp 和 
siglongjmp 以 绕 过 函数 库 对 于 EINTR 的 忽略 。 


尽管 本 例子 相当 简单 ， 但 在 多 线程 化 程序 中 正确 使 用 信号 却 非 常 困 
Pl om 。 因 此 我 们 建议 只 是 在 未 线程 化 或 单线 程 化 的 程序 中 使 
用 M 
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14.2.2 ”使 用 STGALRM 为 recvfrom 设 置 超时 


图 14-2 改 写 自 图 8-8 中 的 dg_cli 函 数 ， 新 的 dg_clLi 函 数 通 过 调 
用 alarm 使 得 一 旦 在 5 秒 钟 内 收 不 到 任何 应 答 就 中断 recvfrom。 





1 #incluie ' ur. p. hi" 
2 static void sic a rm(iut!; 


j void 


4 dà Cli:zILE “so, int socktd, const SA *pservaddr, sockicn_t ocrvicn) 


—advia/declitneo3.c 


6 int n; 

? cnar serdline [MAX_INE], recvline[MAXL.INE + 1]; 

g Siqnal iSIGALFM, 2:3 aim}; 

9 wnile ifgets(send.ine, MAXLINB. fp) := NULL! | 
10 Serdra(sackfd, sendlire, strlen(sendline), 0, pservaddr, servle3); 
L alarm(s,» 
12 i= ( (m = recvErom(sockfd, recvline, MAXL.NE, U, NULL, NULL)) < UI f 
13 i= [crrno == BINTR! 
14 fprint£ stderr, “socket timeout\n") ; 

15 else 
16 err zys"recvfrom error"); 
17 ) eise : 
18 alarm; 

19 recvl:re([n] = 0; /* null rerm:rare */ 
<0 Fputc;recvline, ctdout;; 
z- } 
22 1 
23 
24 static voic 
25 sig alrmiirt signo) 
26 : 
a? return; /* just interrupt the recvfrom() v/ 
28 ) 


图 14-2 ”使 用 alarm 超 时 recvfrom 的 dg_cli 函 数 
处 理 来 自 recvfrom 的 超时 


advio/dgclitineo3.c 


8-22 “为 SIGALRM 建 立 一 个 信号 处 理 函 数 ， 并 在 每 次 调用 recvfrom 前 
通过 调用 alarm 设 置 一 个 5 秒 钟 的 超时 。 如 果 recvfrom 被 我 们 的 信号 处 理 


函数 中 断 了 ， 那 残 输出 一 个 信息 并 继续 执行 。 如 果 读 到 
的 文本 ， 那 就 关 掉 报 警 时 钟 并 输出 服务 器 的 应 答 


SIGALRM 信 和 号 处 理 函 数 


ATOR A IRA at 


24-28 ”信号 处 理 函 数 只 是 简单 地 返回 ， 以 中 断 被 阻塞 的 


recvfrom. 


本 例子 工作 正常 ， 因 为 每 次 调用 alarm 设 置 报警 时 钟 后 ， 期 竺 读 取 
的 只 是 单个 应 答 。 我 们 将 在 20.4 节 使 用 同样 的 技术 ， 然 而 由 于 每 个 报警 
时 钟 对 应 读 取 多 个 应 答 ， 我 们 还 得 处 理 存 在 于 其 中 的 竞争 条 件 。 
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14.2.3 ”使 用 select 为 recvfrom 设 置 超时 


图 14-3 示 例 了 设置 超时 的 第 二 个 技术 《使 用 select) 。 这 个 名 
为 readable_timeo 的 函数 等 待 一 个 描述 符 最 多 在 指定 的 秒 数 内 变 为 可 
读 。 


li/recdable timec.c 





1 £incluse "unp.h* 

2 int 

i readable timco(int td, int sec) 
4 | 
5 


fd set rset; 
€ struct timeval tvy 
7 FD ZBRO[&rset); 
> Fn SET(f- ersat); 
S tv.tv sec = Bec; 
16 tv.tv usce = 0; 
11 returní(sslect/fdel, &rset, NULL, NULL, &tv)!; 
l2 /* > 0 if descriptor is readable */ 


Jihrscdatle limec.c 

















图 14-3 readable_timeo št: 等 待 一 个 描述 符 变 为 可 读 
准备 select 的 参数 


7-10 ”在 读 描述 符 集 中 打开 与 调用 者 给 定 描 述 符 对 应 的 位 。 把 调用 
者 给 定 的 等 待 秒 数 设置 在 一 个 timeval 结 构 中 。 


阻塞 在 select 上 


11-12 select 等 待 该 描述 符 变 为 可 读 ， 或 者 发 生 超 时 。 本 函数 的 
返回 值 就 是 select 的 返回 值 : 出 错时 为 -1， 超 时 发 生 时 为 0， 否 则 返回 
的 正 值 给 出 已 就绪 描 述 符 的 数目 。 


本 函数 不 执行 读 操 作 ， 它 只 是 等 竺 给 定 描述 符 变 为 可 读 。 因 此 本 函 
数 适 用 于 任何 类 型 的 套 接 字 ， 既 可 以 是 TCP 也 可 以 是 UDP。 

我 们 可 以 轻而易举 地 创建 等 待 摘 述 符 变 为 可 写 的 名 
为 writeable_timeo 的 类 似 函 数 o 


我 们 在 图 14-4 中 使 用 这 个 函数 ， 它 改写 自 图 8-8 中 的 dg_c1li 函 数 。 这 
个 新 版 本 只 是 在 readable_timeo 返 回 一 个 正 值 时 才 调 用 recvfrom。 


adviordgctitimeol.c 





1 #include "ung. h" 


2 void 
3 dg cli(FILE *fp, int scckfd, sonst SA *pservaddr, socklen t serv1ler.) 


a | 


5 int n; 

6 char sendline[M»XLINE', recvline[MAXLINE + 1]; 

4 waile (Fqete(csendline, MAXLINE. fp) ‘= NULL: f 

8 Sendto{sscsfd, sendline, atrlen{sendline), 0, pserveddr, servlen); 
9 i= (Readable timeo(sockfd, 5) == 0) { 

10 fprintf [stderr, *sock=t timeout An"); 

11 } else + 

12 n = Recvfrom(sockfd, recvline, MRXLINE, 0, NULZ, NULL); 
13 re-vline[n] = 0; /* null terminate */ 

14 Fputs irecvline. stdout;; 

15 } 

16 } 

17 : 


advis/dgelitimeo!.c 
图 14-4 调用 readable_timeo 设 置 超时 的 dg_cl1i 函 数 


直到 readable_timeo 告 知 所 关注 的 摘 述 符 已 变 为 可 读 后 我 们 才 调 
用 recvfrom， 这 一 点 保证 recvfrom 不 会 阻塞 。 
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14.2.4 ”使 用 So_RcVvTIME0 套 接 字 选项 为 recvfrom 设 
置 超时 


最 后 一 个 例子 展示 So_RcvTIME0 套 接 字 选项 如 何 设 置 超时 。 本 选项 
一 旦 设置 到 某 个 描述 符 〈( 包 括 指 定 超时 值 )， 其 超时 设置 将 应 用 于 该 描 
述 符 上 的 所 有 读 操 作 。 本 方法 的 优势 就 体现 在 一 次 性 设置 选项 上 ， 而 前 
两 个 方法 总 是 要 求 我 们 在 欲 设 置 时 间 限 制 的 每 个 操作 发 生 之 前 做 些 工 
作 。 本 套 接 字 选项 仅仅 应 用 于 读 操作 ， 类 似 的 so_sNDTIME0 选 项 则 仅仅 
应 用 于 写 操作 ， 两 者 都 不 能 用 于 为 connect 设 置 超时 。 


图 14-5 是 使 用 so_RcvTIME0 套 接 字 选项 的 另 一 个 版 本 的 dg_cl1i 函 数 。 








advis/aeclituneoz.c 


1 #incluie "ur p.h" 

2 void 

3 da cli!'ZILE “tc, int socktd, const SA *pservaddr, Socklcn t servicen) 
L2] 

5 int n: 

6 char serdline [MAXLINE], recvline [MAXLINE + 1]; 

T S-ruac- timeval tv; 

8 tv.tvisee = 5; 

9 tv.tv_usec = 0; 

10 Setsockop-(scckfd, SCL SOCKET, 20 RCVTIMEO, &tv. sizeof itv!); 
1i while (Fgets(sendiine, MAXLINE. fp) .- NULL; [ 

12 Serdto(szcsfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
13 n = recvfrcen(sockfd, recvline, MAXLINE, 0, MJLL., NULL); 
14 is (n «o0)í 

15 iz [erenc =-= EWOULDBELOCA) | 

16 fprintf/stderr, "sockst timesut\n") ; 

17 cortinue; 

18 ] eise 

1s err sysi"recyf-om error"); 

20 ) 

21 recvline[n] - 0; /* roll terminate */ 

i2 Fpute(reczvline, stdout); 

23 ] 

24 


图 14-5 fi&Hjso RcvriMEO E fe FEI SEY Hdg clik% 
设置 套 接 字 选项 


advic/agefitineos.c 


8-10 setsockopt 的 第 四 个 参数 是 指 问 某 个 timeval 结 构 的 一 个 指 


针 ， 其 中 填 入 了 期 望 的 超时 值 。 
测试 超时 


15~17 ”如 果 I/O 操 作 超 时 ， 其 函数 (这 里 是 recvfrom) 
个 EwouLDBLOCK 错 误 。 


将 返回 一 


14.3 recvf#ilsendek ZA 


这 两 个 函数 类 似 标准 的 read 和 write 函数 ， 不 过 需要 一 个 额外 的 参 
数 。 

#include <sys/socket.h> 

ssize_t recv(int sockfd, void *buff, size_t nbytes, int flags); 


ssize_t send(int sockfd, const void *buff, size_t nbytes, int flags 


) ; 
返回 ， 若 成 功 则 为 污 入 或 写 出 的 字 节 数 ， 若 出 错 则 为 -1 
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recv 和 send 的 前 3 个 参数 等 同 于 read 和 write 的 3 个 参数 。flags 参 数 的 
值 或 为 0， 或 为 图 14-6 列 出 的 一 个 或 多 个 常 值 的 逻辑 或 。 


MSG DONTROUTE 






Ze ERA Hye fr 
QA BeHTEAEBH ae 
发 送 或 接收 市 外 数据 
MAIRIE 
等 待 所 有 数据 





MSG DONTWAIT 





MSG OOB 





MSG PEEK 












MSG WAITALL 


图 14-6 ”IO 函数 的 fags 参 数 





MSG_DONTROUTE ”本 标志 告知 内 核 目 的 主机 在 某 个 直接 连接 的 本 地 
网 络 上 ， 因 而 无 需 执行 路 由 表 查 找 。 我 们 已 随 so_pONTROUTE 套 接 字 选项 
(7.5 节 ) 提供 了 本 特性 的 额外 信息 。 这 个 既 可 以 使 用 MsG_DpoNTROUTE 标 
志 针 对 单个 输出 操作 开启 ， 也 可 以 使 用 so_DpoNTRoUTE 套 接 字 选项 针对 某 
个 给 定 套 接 字 上 的 所 有 输出 操作 开启 。 


MsG DONTWAIT “本 标志 在 无 需 打 开 相 应 套 接 字 的 非 阻 塞 标志 的 前 提 
下 ， 把 单个 IO 操作 临时 指定 为 非 阻 塞 ， 接 着 执行 IO 操作 ， 然 后 关闭 非 
阻塞 标志 。 我 们 将 在 第 16 章 中 介绍 非 阻塞 式 IO 以 及 如 何 打开 或 关闭 某 
个 套 接 字 上 所 有 LO 操作 的 非 阻 塞 标志 。 














这 个 标志 是 随 Net3 新 增设 的 ， 可 能 并 非 所 有 系统 都 文 持 它 。 


MSG_00B ”对 于 send， 本 标志 指明 即将 发 送 带 外 数据 。 正 如 我 们 将 
在 第 24 章 中 讲述 的 那样 ，TCP 连 接 上 只 有 一 个 字 布 可 以 作为 融 外 数据 发 
送 。 对 于 recv， 本 标志 指明 即将 读 入 的 是 带 外 数据 而 不 是 普通 数据 。 


MSG_PEEK ”本 标志 适用 于 recv 和 recvfrom， 它 允许 我 们 查看 已 可 读 
取 的 数据 ， 而 且 系 统 不 在 recv 或 recvfrom 返 回 后 丢弃 这 些 数 据 。 我 们 将 
在 14.7 节 详细 讨论 这 个 标志 。 


MSG WAITALL ”本 标志 随 4.3BSD Reno 引 入 。 它 告知 内 核 不 要 在 尚未 
读 入 请 求 数目 的 字 节 之 前 让 一 个 读 操 作 返 回 。 如 果 系 统 文 持 本 标志 ， 我 
们 就 可 以 省 掉 readn 函 数 〈 图 3-15) ， 而 替 之 以 如 下 的 安 : 


#define readn(fd, ptr, n) recv(fd, ptr, n, MSG WAITALL) 
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即使 指定 了 Ms6G_wAITALL， 如 果 发 生 下 列 情 况 之 一 : (捕获 一 个 信 
号 ，(b) 连 接 被 终止 ，(@ 〇 套 接 字 发 生 一 个 错误 ， 相 应 的 读 函 数 仍 有 可 能 
返回 比 所 请 求 字 节 数 要 少 的 数据 。 


另 有 一 些 标志 适用 于 TCP/P 以 外 的 协议 族 。 举 例 来 说 ，OSI 的 传输 
层 是 基于 记录 的 〈 不 像 TCP 那 样 是 一 个 字 节 流 ) ， 其 输出 操作 支 
持 MsG_EOR 标 志 ， 指 示 还 辑 记 录 的 结束 。 


flags 参 数 在 设计 上 存在 一 个 基本 问题 ， 它 是 按 值 传递 的 ， 而 不 是 一 
个 值 -结果 参数 。 因 此 它 只 能 用 于 从 进程 癌 内 核 传递 标志 。 内 核 无 法 癌 
进程 传 回 标志 。 对 于 TCP/IP 协 议 这 一 点 不 成 问题 ， 因 为 TCP/IP 几 平 不 需 
要 从 内 核 癌 进程 传 回 标志 。 然 而 随 着 OSI 协议 被 加 到 4.3BSD Reno 中 ， 却 
提出 了 随 输入 操作 向 进程 返 送 Ms6_EoR 标 志 的 需求 。4.3BSD Reno 做 出 的 
决定 是 保持 常用 输入 函数 (recv 和 recvfrom) 的 参数 不 变 ， 而 改变 
recvmsg 和 sendmsg 所 用 的 msghdr 结 构 。 我 们 将 在 14.5 节 中 看 到 该 结构 新 
增 了 一 个 整数 nsg_flags 成 员 ， 而 且 既 然 该 结构 按 引 用 传递 ， 内 核 就 可 
以 在 返回 时 修改 这 些 标志 。 这 个 决定 同时 意味 着 如 果 一 个 进程 需要 由 内 
核 更 新 标志 ， 它 就 必须 调用 recvmsg， 而 不 是 调用 recv 或 recvfrom。 














14.4 readv 和 writev 国 数 


这 两 个 函数 类 似 read 和 write， 不 过 readv 和 writev 人 允许 单个 系统 调 
用 读 入 到 或 写 出 自 一 个 或 多 个 缓冲 区 。 这 些 操作 分 别称 为 分 散 读 
(scatter read) 和 集中 写 (gather write) ， 因 为 来 自 读 操作 的 输入 数据 
被 分 散 到 多 个 应 用 缓冲 区 中 ， 而 来 自 多 个 应 用 缓冲 区 的 输出 数据 则 被 集 
中 提供 给 单个 写 操 作 。 


#include <sys/uio.h> 
ssize t readv(int filedes, const struct iovec *iov, int iovcnt); 


ssize t writev(int filedes, const struct iovec *iov, int iovcnt); 
返回 : AMM ARAR ES He, TnfunmpA-1 

















这 两 个 函数 的 第 二 个 参数 都 是 指 同 某 个 ijovec 结 构 数 组 的 一 个 指 
针 ， 其 中 iovec 结 构 在 头 文件 <sys/uio.h> 中 定义 : 


struct iovec ( 





void  *iov base; /* starting address of buffer */ 
size t iov len; /* size of buffer */ 
}; 
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这 里 给 出 的 iovec 结 构 其 各 个 成 员 的 数据 类 型 符合 POSIX 规 范 。 你 
可 能 会 碰 到 把 iovec_base 成 员 定 义 为 char  *， 把 iov_len 成 员 定 义 为 int 
的 实现 。 


iovec 结 构 数 组 中 元 系 的 数目 存在 余 个 限制 ， 具 体 取 决 于 实现 。 举 
例 来 说 ，4.3BSD 和 Linux 均 最 多 允许 1024 个 ， 而 HP-UX 最 多 允许 2100 
个 。POSIX 要 求 在 头 文件 <sysyuio.h> 中 定义 TIov_MAx 常 值 ， 而 且 其 值 至 
少 为 16。 

readv 和 writev 这 两 个 函数 可 用 于 任何 描述 符 ， 而 不 仅 限于 套 接 
字 。 另 外 writev 是 一 个 原子 操作 ， 意 味 着 对 于 一 个 基于 记录 的 协议 〈 例 
如 UDP) 而 言 ， 一 次 writev 调 用 只 产生 单个 UDP 数据 报 。 


我 们 在 7.9 节 随 TcP_NoDELAY 套 接 字 选项 提 到 过 writev 的 一 个 用 途 。 














当时 我 们 说 一 个 4 字 节 的 write 跟 一 个 396 字 节 的 write 可 能 触 友 Nagle 算 
法 ， 首 选 办 法 之 一 是 针对 这 两 个 缓冲 区 调用 writev。 





14.5 recvmsg^l sendmsgrK 2X 


这 两 个 函数 是 最 通用 的 IO 函数 。 实 际 上 我 们 可 以 把 所 
有 read、readv、recv 和 recvfrom 调 用 蔡 换 成 recvmsg 调 用 。 类 似 地 ， 各 
种 输出 函数 调用 也 可 以 蔡 换 成 sendmsg 调 用 。 


#include <sys/socket.h> 





ssize_t recvmsg(int sockfd, struct msghdr *msg, int flags); 


ssize_t sendmsg(int sockfd, struct msghdr *msg, int flags); 




















返回 : 若 成 功 则 为 读 入 或 写 出 的 字 节 数 ， 若 出 错 则 为 -1 








这 两 个 函数 把 大 部 分 参数 封装 到 一 个 msghdr 结 构 中 : 


struct msghdr { 


void *msg. name; /* protocol address */ 

socklen t msg namelen; /* size of protocol address */ 

struct iovec *msg iov; /* scatter/gather array */ 

int msg. iovlen; /* # elements in msg iov */ 

void *msg control; /* ancillary data (cmsghdr struct) */ 
socklen t msg. controllen; /* length of ancillary data */ 

int msg flags; /* flags returned by recvmsg() */ 


这 里 给 出 的 msghdr 结 构 符 合 POSIX 规 范 。 有 些 系统 仍然 使 用 本 结构 
源 自 4.2BSD 的 较 旧版 本 。 这 个 较 旧 的 结构 没有 msg_flags 成 员 ， 而 
且 msg_contro1 和 msg_controLllen 成 员 分 别 被 称 为 msg_accrights 和 
msg_accrightslen。 这 个 较 旧 结构 唯一 支持 的 辅助 数据 形式 用 于 传递 文 
件 描述 符 〈 称 为 访问 权限 ) 。 


msg_name 和 msg_namelen 这 两 个 成 员 用 于 套 接 字 未 连接 的 场合 〈 璧 如 
未 连接 UDP 套 接 字 ) 。 它 们 类 似 recvfrom 和 sendto 的 第 五 个 和 第 六 个 参 
数 : msg_name 指 向 一 个 套 接 字 地 址 结构 ， 调 用 者 在 其 中 存放 接收 者 (对 
于 sendmsg 调 用 ) 或 发 送 者 〈 对 于 recvmsg 调 用 ) 的 协议 地 址 。 如 果 无 需 
指明 协议 地 址 〈 例 如 对 于 TCP 套 接 字 或 已 连接 UDP 套 接 字 ) ，msg_name 
应 置 为 空 指针 。msg_namelen 对 于 sendmsg 是 一 个 值 参 数 ， 对 于 recvmsg 却 
是 一 个 值 一 结果 参数 。 
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msg_iov 和 msg_iovlen 这 两 个 成 员 指定 输入 或 输出 缓冲 区 数组 
( 即 iovec 结 构 数 组 ) ， 类 似 readv 或 writev 的 第 二 个 和 第 三 个 参 
数 。msg_control 和 msg_controllen 这 两 个 成 员 指定 可 选 的 辅助 数据 的 位 
置 和 大 小 。 msg_controllen 对 于 recvmsg 是 一 个 值 一 结果 参数 。 我 们 将 在 
14.6 节 讲解 辅助 数据 。 


对 于 recvmsg 和 sendmsg， 我 们 必须 区 别 它们 的 两 个 标志 变量 ， 一 个 
是 传递 值 的 flags 参 数 ， 男 一 个 是 所 传递 nsghdr 结 构 的 msg_flags 成 员 ， 它 
传递 的 是 引用 ， 因 为 传递 给 函数 的 是 该 结构 的 地 址 。 





e 只 有 recvmsg 使 用 msg_flags 成 员 。recvmsg 被 调用 时 ，flags 参 数 被 复 
制 到 msg_flags 成 员 (TCPv2 第 502 页 ) ， 并 由 内 核 使 用 其 值 驱动 接 
收 处 理 过 程 。 内 核 还 依据 recvmsg 的 结果 更 新 msg_flags 成 员 的 值 。 

e sendmsg 则 忽略 msg_flags 成 员 ， 因 为 它 直 接 使 用 flags 参 数 驱 动 发 送 
处 理 过 程 。 这 一 点 意味 着 如 果 想 在 某 个 sendmsg 调 用 中 设 
置 MsG_DpoNTwAIT 标 志 ， 那 就 把 hags 参 数 设 置 为 该 值 ， 把 msg_flags 成 
员 设 置 为 该 值 不 起 作用 。 


图 14-7 汇 总 了 内 核 为 输入 和 输出 函数 检查 的 hags 参 数值 以 及 recvmsg 
可 能 返回 的 msg_flags 成 员 值 。 其 中 没有 sendmsg msg flags— T5. ALA 
我 们 已 提 及 本 组 合 无 效 。 


E: A EOS fi send., 由 内 核 检查 recv、 HIN HUE EE recvmeg Ay 
sendtorisendmsgiixt | recvfrzom"Lrecvnsatfi i raa f12ams?5 5:5 
fflag E E it logs $t MM b ils n 
MSG_DONTROUTE 
MSG DONTWAIT . 
MSG PEEK a 
MSS WAITALL e 





MSG NOTIFICATION 











图 14-7 ”各 种 IO 函数 输入 和 输出 标志 的 总 结 
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这 些 标志 中 ， 内 核 只 检查 而 不 返回 前 4 个 标志 ， 既 检查 又 返回 接 下 
来 的 2 个 标志 ， 不 检查 而 只 返回 后 4 个 标志 。recvmsg 返 回 的 7 个 标志 解释 
OF 


MSG_BCAST ”本 标志 随 BSD/OS 引 入 ， 相 对 较 新 。 它 的 返回 条 件 是 本 
数据 报 作 为 链 路 层 广播 收取 或 者 其 目的 IP 地 址 是 一 个 广播 地 址 。 
与 IP_RECVD- ”STADDR 套 接 字 选项 相 比 ， 本 标志 是 用 于 判定 一 个 UDP 数 据 
报 是 否 发 往 某 个 广播 地 址 的 更 好 方法 。 


MSG_MCAST ”本 标志 随 BSD/OS 引 入 ， 相 对 较 新 。 它 的 返回 条 件 是 本 
数据 报 作 为 链 路 层 多 播 收 取 。 


MSG_TRUNC ”本 标志 的 返回 条 件 是 本 数据 报 被 截断 ， 也 就 是 说 ， 内 
核 预备 返回 的 数据 超过 进程 事先 分 配 的 空间 〈 所 有 :iov_len 成 员 之 
ARD 。 我 们 将 在 22.3 节 详细 讨论 本 问题 。 


MsG CTRUNC ”本 标志 的 返回 条 件 是 本 数据 报 的 辅助 数据 被 截断 ， 也 
就 是 说 ， 内 核 预备 返回 的 辅助 数据 超过 进程 事先 分 配 的 空间 


(msg controllen) 。 


MSG EOR APRS B) E RIER [ELA AR — duo. TCP 
不 使 用 本 标志 ， 因 为 它 是 一 个 字 节 流 协 议 。 


Msc ooB ”本 标志 绝 不 为 TCP 带 外 数据 返回 。 它 用 于 其 他 协议 族 
(例如 OSI 协 议 族 ) 。 


MSG_NOTIFICATION ”本 标志 由 SCTP 接 收 者 返回 ， 指 示 读 入 的 消息 是 
一 个 事件 通知 ， 而 不 是 数据 消息 。 

具体 实现 可 能 会 在 msg_flags 成 员 中 返回 一 些 输入 flags 参 数值 ， 
此 我 们 应 该 只 检查 那些 感 兴 趣 的 标志 值 〈 例 如 图 14-7 中 的 后 6 个 标 


E 


图 14-8 展 示 了 一 个 msghdr 结 构 以 及 它 指 同 的 各 种 信息 。 图 中 假设 进 
程 即将 对 一 个 UDP 套 接 字 调用 recvmsg。 
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msghdr{} | L 7 


fren Se 








图 14-8 ”对 一 个 UDP 套 接 字 调用 recvmsg 时 的 数据 结构 





图 中 给 协议 地 址 分 配 了 16 个 字 节 ， 给 辅助 数据 分 PRC 了 20 个 字 市 。 为 
缓冲 数据 初始 化 了 一 个 由 3 个 ijovec 结 构 构 成 的 数组 : 第 一 个 指定 一 个 
100 字 节 的 缓冲 区 ， 第 二 个 指定 一 个 60 字 节 的 缓冲 区 ， 第 三 个 指定 一 个 
80 字 节 的 缓冲 区 。 我 们 还 假设 已 为 这 个 套 接 字 设置 了 ITP_RECVDSTADDR 套 
接 字 选项 ， 以 接收 所 读 取 UDP 数 据 报 的 目的 IP 地 址 。 


我 们 接着 假设 从 192.6.38.100 端 口 2000 到 达 一 个 170 字 节 的 UDP 数据 
报 ， 它 的 目 9 地 是 我 们 的 UDP 大 接 字 目的 IP 地 址 为 206.168.112.96。 图 
14-9 展 示 了 recvmsg 返 回 时 msghdr 结 构 中 的 所 有 信息 。 
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sockaddr in() 
一 bil. 16,AF INET, 2000 
192.6.38.100 





emsghdr{} 

16 
[ud T [s E^ ded 

cus tvp- fP RECVDSTADDR 

206.268.112,856 





图 14-9 ”recvmsg 返 回 时 对 图 14-8 的 更 新 


图 中 被 recvmsg 修 改过 的 字段 标 上 了 阴影 。 从 图 14-8 到 图 14-9 的 变动 
包括 以 下 几 点 。 





e 由 msg_name 成 员 指 回 的 绥 冲 区 被 填 以 一 个 网 际 网 套 接 字 地 址 结构 ， 
其 中 有 所 收 到 数据 报 的 源 卫 地 址 和 源 UDP 端口 号 。 

e msg_namelen 成 员 ( 一 个 值 -结果 参数 ) 被 更 新 为 存放 在 msg_name 所 
指 绥 冲 区 中 的 数据 量 。 本 成 员 并 无 变化 ， 因 为 recvmsg 调 用 前 和 返 
回 后 其 值 均 为 16。 

© 所 收取 数据 报 的 前 100 字 节 数 据 存放 在 第 一 个 缓冲 区 ， 中 60 字 节 数 
据 存 放 在 第 二 个 缓冲 区 ， 后 10 字 节 数 据 存 放 在 第 三 个 缓冲 区 。 最 后 
那个 缓冲 区 的 后 70 字 节 没 有 改动 。recvmsg 函 数 的 返回 值 〈 即 170) 
就 是 该 数据 报 的 大 小 。 

e 由 msg_control 成 员 指向 的 缓冲 区 被 填 以 一 个 cmsghdr 结 构 。〔 我 们 
将 在 14.6 节 详细 讨论 辅助 数据 ， 在 22.2 节 详细 讨论 IP_RECVDSTADDR 
套 接 字 选 项 。) 该 cemsghdr 结 构 中 ，cmsg_len 成 员 值 为 
16，cmsg_level 成 员 值 为 IPPROT0_IP，cmsg_type 成 员 值 
为 IP_RECVDSTADDR， 随 后 4 个 字 节 存放 所 收 到 UDP 数 据 报 的 目的 IP 地 
址 。 这 个 20 字 节 绥 冲 区 的 后 4 个 字 节 没有 改动 。 

e。msg_controllen 成 员 被 更 新 为 所 存放 辅助 数据 的 实际 数据 量 。 本 成 
员 也 是 一 个 值 -结果 参数 ，recvmsg 返 回 时 其 结果 为 16。 

。msg_flags 成 员 同样 被 recvmsg 更 新 ， 不 过 没有 标志 返回 给 进程 。 
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图 14-10 汇 总 了 我 们 已 讲述 的 5 组 IO 函数 之 间 的 差异 。 


"zn ; ur | RR | «EXT. 
i JS TE Ies f] 组 证 区 XM] Jat 
Pre cies] 

: * 


E 
recvirom, secdto U.— 25-0] 


recvmag, 








图 14-10 5 组 WO 函数 的 比较 


14.6 ”辅助 数据 


辅助 数据 Cancillary data) 可 通过 调用 sendmsg 和 recvmsg 这 两 个 函 
数 ， 使 用 msghdr 结 构 中 的 msg_control 和 msg_controllen 这 两 个 成 员 发 送 
和 接收 。 辅 助 数 据 的 男 一 个 称谓 是 控制 信息 (control information) . 3X 
们 将 在 本 节 讲 解 其 概念 并 给 出 用 于 构造 和 处 理 辅助 数据 的 结构 和 宏 ， 不 
过 介绍 辅助 数据 实际 用 途 的 代码 例子 将 留 到 以 后 的 相关 章节 。 


图 14-11 汇 总 了 我 们 将 在 本 书 中 讨论 的 辅助 数据 的 各 种 用 途 。 
i T eser | ees | 
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随 UDP 数 据 报 接收 有 的 地 址 
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IPVS NEXTICP 
IPV6 PKTINFO 
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指定 / 朱 收 目的 地 选项 
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指定 /接收 分 组 信息 
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IPV5 TCLASS Mea eua y AL RC 28 0 
Unix 域 SOL SOCKET SCM RIGHTS AE HM RTT 
SCM_CREDS 4 DERE 9] PEE 
图 14-11 辅助 数据 用 途 的 总 结 














OSI 协议 族 也 出 于 各 种 目的 使 用 辅助 数据 ， 但 本 书 不 做 讨论 。 
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辅助 数据 由 一 个 或 多 个 辅助 数据 对 象 Cancillary data 


object) 构 


每 个 对 象 以 一 个 定义 在 头 文件 <sys/socket .h> 中 的 cmsghdr 结 构 开 


struct cmsghdr { 


/* length in bytes, including this structure */ 


socklen t cmsg len; 
int cmsg level; /* originating protocol */ 
int cmsg type; /* protocol-specific type */ 


/* followed by unsigned char cmsg data[] */ 


我 们 已 在 图 14-9 中 见识 过 这 个 结构 ， 当 时 它 由 IP_RECVDSTADDR 套 接 
字 选 项 用 来 返回 所 收取 UDP 数 据 报 的 目的 IP 地 址 。 由 msg_control 指 问 的 
辅助 数据 必须 为 csmghdr 结 构 适 当地 对 齐 。 我 们 将 在 图 15-11 中 展示 一 个 
对 齐 方法 。 

图 14-12 展 示 了 在 一 个 控制 缓冲 区 中 出 现 2 个 辅助 数据 对 象 的 例子 。 


msg contro. 


cmsq len 





cmsq level — 
cmsq type | 





辅助 数据 对 象 
CMSG_SPACE () 
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Lu 
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图 14-12 ”包含 两 个 辅助 数据 对 象 的 辅助 数据 


msg_control 指 问 第 一 个 辅助 数据 对 象 ， 辅 助 数据 的 总 长 上 度 则 
由 msg_controllen 指 定 。 每 个 对 象 开 头 都 是 一 个 描述 该 对 象 的 cmsghdr 结 
构 。 在 cmsg_type 成 员 和 实际 数据 之 间 可 以 有 填充 字 节 ， 从 数据 结尾 处 
到 下 一 个 辅助 数据 对 象 之 前 也 可 以 有 填充 字 节 。 我 们 稍 后 讲解 的 5 
个 cms6_XXX 宏 会 解决 这 种 可 能 的 填充 问题 。 


不 是 所 有 实现 都 支持 在 单个 控制 缓冲 区 中 存放 多 个 辅助 数据 对 象 。 
图 14-13 展 示 了 通过 一 个 Unix 域 套 接 字 传递 描述 符 (15.75) 或 传递 


























^tuE C15.8 3) 时 所 用 cmsghdr 结 构 的 格式 。 
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cmsghdr{} emsghdr{ } 










[msg len — ]15 oneg ien — ]::2 
[ ems level so: socweT [ cmsg level |sor socker 
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pocta 





fcrad() 




















图 14-13 ”用 在 Unix 域 套 接 字 上 的 cmsghdr 结 构 


图 中 我 们 假设 cmsghdr 结 构 的 每 个 成 员 (总 共 3 个 都 占用 4 个 字 
节 ， 而 且 在 cmsghdr 结 构 和 实际 数据 之 间 没有 填充 字 节 。 当 传递 描述 符 
时 ，cmsg_data 数 组 的 内 容 是 真正 的 描述 符 值 。 图 中 只 展示 了 一 个 待 伟 
递 的 描述 符 ， 然 而 一 般 总 能 传递 多 个 描述 符 〈 这 种 情况 下 cmsg_len 的 值 
为 12 加 上 4 乘 以 描述 符 的 数目 ， 这 里 假设 每 个 描述 符 占据 4 个 字 节 ) 。 


既然 由 recvmsg 返 回 的 辅助 数据 可 含有 任意 数目 的 辅助 数据 对 象 ， 
为 了 对 应 用 程序 屏蔽 可 能 出 现 的 填充 字 节 ， 头 文件 <sys/socket .h> Pie 
义 了 以 下 5 个 宏 ， 以 简化 对 辅助 数据 的 处 理 。 


#include <sys/socket.h> 
#include <sys/param.h> /* for ALIGN macro on many implementations */ 


























struct cmsghdr *CMSG FIRSTHDR(struct msghdr *mhdrptr); 


返回 : 指向 第 一 个 cmsghdr 结 构 的 指针 ， 若 无 辅助 数据 则 为 NULL 









































struct cmsghdr *CMSG NXTHDR(struct msghdr *mhdrptr, struct cmsghdr *cmsgptr); 
































返回 : 指向 下 一 个 cmsghdr 结 构 的 指针 ， 若 不 再 有 辅助 数据 对 和 象 则 为 NULL 
unsigned char *CMSG DATA(struct cmsghdr *cmsgptr); 


返回 : 指向 与 cmsghdr 结 构 关 联 的 数据 的 第 一 个 字 节 的 指针 

















unsighed int CMSG LEN(unsigned int length); 








返回 : 给 定数 据 量 下 存放 到 cmsg_Len 中 的 值 

















unsigned int CMSG SPACE(unsigned int length); 


返回 : 给 定数 据 量 下 一 个 辅助 数据 对 象 总 的 大 小 
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POSIXoE X. f Bj34 Z5, RFC 3542 [Stevens et al. 2003] 定义 了 后 2 
ANGE 
we P 


这 些 宏 能 以 如 下 伪 代 码 形式 使 用 。 


struct msghdr msg; 
struct cmsghdr *cmsgptr; 


/* fill in msg structure */ 
/* call recvmsg() */ 


for (cmsgptr = CMSG_FIRSTHDR(&msg); cmsgptr != NULL; 
cmsgptr = CMSG_NXTHDR(&msg, E { 
if (cmsgptr->cmsg_level == ... 
cmsgptr - >cmsg_ type -- ...) "d 
u char *ptr; 


ptr = CMSG DATA(cmsgptr); 
/* process data pointed to by ptr */ 
} 
} 


CSMG_FIRSTHDR 返 回 指 辣 第 一 个 辅助 数据 对 象 的 指针 ， 然 而 如 果 
fEmsghdr£ 和 中 没有 辅助 数据 (或 者 msg_control 为 一 个 空 空 指针 ， 或 
者 csmg_len 小 于 一 个 cmsghdr 结 构 的 大 小 ) ， BARH DEHE MAR 
0 F 一 个 辅助 数据 对 象 时 ， eh 
日 o 


CMSG_FIRSTHDR 的 许多 现 有 实现 并 不 检查 msg_controllen 而 直接 返回 
msg_control 的 值 。 在 图 22-2 中 ， 我 们 将 在 调用 该 宏 之 前 测试 
msg_controllen 的 值 。 


cMSG_LEN 和 cMSG_sPACE 的 区 别 在 于 ， 前 者 不 计 辅 助 数据 对 象 中 数据 

分 之 后 可 能 IRRE, R HR e len 成 员 中 的 
人 后 者 计 上 结尾 处 可 能 的 填充 字 节 ， 因 而 返回 的 是 为 辅助 数据 对 象 动 
态 分 配 空 z 间 的 大 小 值 。 














14.7 排队 的 数据 量 


有 时 候 我 们 想 要 在 不 真正 读 取 数据 的 前 提 下 知道 一 个 套 接 字 上 已 有 
多 少数 据 排队 等 着 读 取 。 有 3 个 技术 可 用 于 获悉 已 排队 的 数据 量 。 


(1) 如 果 获 悉 已 排队 数据 量 的 目的 在 于 避免 读 操作 阻塞 在 内 核 中 
《因为 没有 数据 可 读 时 我 们 还 有 其 他 事情 可 做 ) ， 那 么 可 以 使 用 非 阻塞 
式 IO。 我 们 将 在 第 16 章 中 讨论 非 阻 塞 式 IO。 


(2) “如果 我 们 既 想 查看 数据 ， 又 想 数 据 仍然 留 在 接收 队列 中 以 供 本 
进程 其 他 部 分 稍 后 读 取 ， 那 么 可 以 使 用 Ms6_PEEK 标 志 《〈 图 14-6) 。 如 果 
我 们 想 这 样 做 ， 然 而 不 能 肯定 是 否 真有 数据 可 读 ， 那 么 可 以 结合 非 阻塞 
套 接 字 使 用 该 标志 ， 也 可 以 组 合 使 用 Ms6_poNTwAIT 标 志和 MSG_PEEK 标 
七 
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需 注意 的 是 ， 就 一 个 字 节 流 套 接 字 而 言 ， 其 接收 队列 中 的 数据 量 可 
能 在 两 次 相继 的 recv 调 用 之 间 发 生变 化 。 举 例 来 说 ， 假 设 指定 MsG_PEEK 
标志 以 一 个 长 度 为 1024 字 节 的 缓冲 区 对 一 个 TCP 套 接 字 调用 recv， 而 且 
其 返回 值 为 100。 如 果 再 次 调用 同一 个 recv， 返 回 值 就 有 可 能 超过 
100〈 假 设 指 定 的 缓冲 区 长 度 大 于 100) ， 因 为 在 这 两 次 调用 之 间 TCP 可 
能 又 收 到 了 一 些 数据 。 


就 一 个 UDP 套 接 字 而 言 ， 假 设 其 接收 队列 中 己 有 一 个 数据 报 ， 如 果 
我 们 指定 MsG_PEEK 标 志 调 用 recvfrom 一 次 ， 稍 后 不 指定 该 标志 再 调 
用 recvfrom 一 次 ， 那 么 即使 另 有 数据 报 在 这 两 次 调用 之 间 加 入 该 套 接 字 
的 接收 队列 ， 这 两 个 调用 的 返回 值 ( 数 据 报 大 小 、 内 容 及 发 送 者 地 址 ) 
c M d eae pune, 
us 


(3) 一 些 实现 支持 ioct1 的 FIONREAD 命 令 。 该 命令 的 第 三 个 ioct1 参 数 
是 指向 某 个 整数 的 一 个 指针 ， 内 核 通 过 该 整数 返回 的 值 就 是 套 接 字 接 收 
队列 的 当前 字 节 数 (CTCPv2 第 553 页 ) 。 该 值 是 已 排队 字 节 的 总 和 ， 对 
于 UDP 套 接 字 而 言 包 括 所 有 已 排队 的 数据 报 。 还 要 注意 的 是 ， 在 源 自 
Berkeley 的 实现 中 ， 为 UDP 套 接 字 返 回 的 值 还 包括 一 个 套 接 字 地 址 结构 

















的 空间 ， 其 中 含有 发 送 者 的 人 P 地 址 和 端口 号 (对 于 IPv4 为 16 个 字 节 ， 对 
于 IPv6 为 24 个 字 节 ) 。 


14.8 ” 套 接 字 和 标准 VO 


到 目前 为 止 的 所 有 例子 中 ， 我 们 一 直 使 用 也 称 为 Unix IO 一 一 包括 
read、write 这 两 个 函数 及 它们 的 变 体 〈recv、send 等 等 ) 的 函数 执 
行 1O。 这 些 函 数 围 绕 描述 符 (descriptor? 工作 ， 通 常 作为 Unix 内 核 中 
的 系统 调用 实现 。 


执行 1O 的 另 一 个 方法 是 使 用 标准 IO 函数 库 (standard IO 
library) 。 这 个 函数 库 由 ANSI C 标 准 规 范 ， 意 在 便于 移植 到 支持 ANSI C 
的 非 Unix 系 统 上 。 标 准 1/O 函 数 库 处 理 我 们 直接 使 用 Unix IO 函数 时 必须 
考虑 的 一 些 细节 ， 璧 如 自动 缓冲 输入 流 和 输出 流 。 不 幸 的 是 ， 它 对 于 流 
的 缓冲 处 理 可 能 导致 我 们 同样 必须 考虑 的 一 组 新 的 问题 。APUE 第 5 章 详 
细 讨 论 了 标准 W/O 函数 库 ， LPlauger 1992] 给 出 并 讨论 了 标准 WO 函数 库 
的 一 个 完整 的 实现 。 


标准 LO 函数 库 也 使 用 流 (stream) 这 个 称谓 ， 壁 如 “打开 一 个 输入 
流 ? 或 “ 刷 写 输出 流 ”。 不 要 把 它 和 我 们 将 在 第 31 章 中 讨论 的 流 
(STREAMS) 子 系 统 相 混 消 。 

标准 IO 函数 库 可 用 于 套 接 字 ， 不 过 需要 考虑 以 下 几 点 。 
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e 通过 调用 fdopen， 可 以 从 任何 一 个 描述 符 创 建 出 一 个 标准 IO 流 。 
类 似 地 ， 通 过 调用 fileno， 可 以 获取 一 个 给 定 标准 IO 流 对 应 的 描 
述 符 。 我 们 第 一 次 遇 到 fileno 是 在 图 6-9 中 ， 当 时 我 们 想 在 一 个 标 
; 准 MO 流 上 调用 select。select 只 能 用 于 摘 述 符 ， 因 此 我 们 不 得 不 获 
取 那 个 标准 IO 流 的 描述 符 。 

TCP 和 UDP 和 套 接 字 是 全 双 工 的 。 标 准 MO 流 也 可 以 是 全 双 工 的 : 只 要 
以 r+ 类 型 打开 流 即 可 ，r+ 意 味 着 读 写 。 然 而 在 这 样 的 流 上 ， 我 们 必 
须 在 调用 一 个 输出 函数 之 后 插入 一 个 ffLlush、fseek、fsetpos 

或 rewind 调 用 才能 接着 调用 一 个 输入 函数 。 类 似 地 ， 调 用 一 个 输入 
函数 后 也 必须 搬入 一 个 fseek、fsetpos 或 rewind 调 用 才能 调用 一 个 
输出 函数 ， 除 非 输入 函数 遇 到 一 个 EOE。fseek、fsetpos 和 rewind 
这 3 个 函数 的 问题 是 它们 都 调用 lseek， 而 lseek 用 在 套 接 字 上 只 会 





失败 。 
。 解决 上 述 读 写 问 题 的 最 简单 方法 是 为 一 个 给 定 套 接 字 打 开 两 个 标准 
IO 流 : 一 个 用 于 读 ， 一 个 用 于 写 。 


例子 : 使 用 标准 IO 的 str echorK 2X 
下 面 我 们 使 用 标准 IO 代替 read 和 writen 重 新 编写 图 5-3 中 的 TCP 回 


射 服务 器 程序 。 图 14-14 是 改 用 标准 MO 的 str_echo 函 数 版 本 。 (这 个 版 
本 存在 一 个 我 们 稍 后 要 讲解 的 问题 。) 








acvio/str ecio sidioUZ.c 
1 o$include ' ur.p. hi" 


2 void 

3 str eccholirt socktd) 

cnar line [MaXLIĪNE] ; 

FILE "fpin, *fzout; 

foin = Pdoper[sockfd, "r"); 

fzout = Fdopeniscckfd, "w"!; 

wri le iFuets(line, MBXLINE, fpirj = WULLI 
Fputs(line, fpour): 


io ‘oe e -J ee 


adviesir echo 3idio02.c 























图 14-14 E5 mH bEUOBRIstr echorf Zi 
把 描述 符 转 换 成 输入 流 和 输出 流 


7~10 调用 fdopen 创 建 两 个 标准 MO 流 ， 一 个 用 于 输入 ， 一 个 用 于 
输出 。 把 原来 的 read 和 writen 调 用 替换 成 fgets 和 fputs 调 用 。 
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如 果 以 这 个 版 本 的 str_echo 运 行 我 们 的 服务 器 ， 然 后 运行 其 客户 ， 
我 们 得 到 以 下 结 


hpux % tcpcli02 206.168.112.96 












































hello, world 键入 本 行 ， 但 无 回 射 输出 
and hi 再 键入 本 行 ， 仍 无 回 射 输出 
hello?? 再 键入 本 行 ， 仍 无 回 射 输出 
AD 键入 EOF 字 符 

hello, world 至 此 才 输 出 那 三 个 回 射 行 
and hi 











hello?? 


= 





服务 器 直到 我 们 键入 EOF 字 符 才 回 射 所 有 文本 行 的 原因 在 于 这 里 存 
个 缓冲 问题 。 以 下 是 实际 发 生 的 步骤 。 


我 们 键入 第 一 行 输入 文本 ， 它 被 发 送 到 服务 器 

服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 

服务 器 的 标准 WO 流 被 标准 W/O 函数 库 完全 缓冲 。 这 意味 着 该 函数 库 
把 回 射 行 复制 到 输出 流 的 标准 WO 缓冲 区 ， 但 是 不 把 该 缓冲 区 中 的 
内 容 写 到 描述 符 ， 因 为 该 缓冲 区 未 满 。 

我 们 键入 第 二 行 输入 文本 ， 它 被 发 送 到 服务 器 。 


e 服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 


人 
z 但 是 不 把 该 缓冲 区 中 的 内 容 写 到 描述 符 ， 因 为 该 缓冲 区 仍 未 


m 情形 发 生 在 我 们 键入 的 第 三 行文 本 上 。 

我 们 键入 EOF 字 符 ， 致 使 我 们 的 str_cli 函 数 〈 图 6-13) 调 

用 shutdown， 从 而 发 送 一 个 FIN 到 服务 器 

ae ene 它 被 fgets 读 入 ， 致使 fgets 返 回 一 个 空 
日 o 

str_echo 国 数 返 回 到 服务 器 的 main 函 数 〈 图 5-12) ， 子 进程 通过 调 
用 exit 终 止 。 

C 库 函数 exit 调 用 标准 IO 清理 函数 CAPUES8162— 164912) 。 之 
前 由 我 们 的 fputs 调 用 填 入 输出 缓冲 区 中 的 未 满 内 容 现 被 输出 。 
服务 器 子 进程 终止 ， 致 使 它 的 已 连接 套 接 字 被 关闭 ， 从 而 发 送 一 个 
FIN 到 客户 ， 完 成 TCP 的 四 分 组 终止 序列 。 





。 我 们 的 str_cli 函 数 收 取 并 输出 由 服务 器 回 射 的 三 行文 本 。 


str_cli 接 着 在 其 套 接 字 上 收 到 一 个 EOF， 客 户 于 是 终止 。 
这 里 的 问题 出 在 服务 器 中 由 标准 WO 函数 库 自动 执行 的 缓冲 之 上 。 








标准 IO 函数 库 执行 以 下 三 类 绥 冲 。 


T/O: 


(1) ZERI (fully buffering) 意味 着 只 在 出 现下 列 情况 时 才 发 生 
绥 冲 区 满 ， 进 程 显 式 调用 fflush， 或 进程 调用 exit 终 止 自 身 。 标 准 


IO 缓冲 区 的 通常 大 小 为 8192 字 节 
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(2 TÆ Cine buffering) BMG A EEM BTU AACE 


VO: 人 磅 到 一 个 换行 符 ， 进 程 调用 fflush， 或 进程 调用 exit 终 止 自身 。 


(3) 不 缓冲 Cunbuffering) 意味 着 每 次 调用 标准 IO 输出 函数 都 发 生 
IO。 


标准 IO 函数 库 的 大 多 数 Unix 实 现 使 用 如 下 规则 。 


e. 标准 错误 输出 总 是 不 缓冲 。 

。 标准 输入 和 标准 输出 完全 缓冲 ， 除 非 它们 指 代 终 端 设 备 ( 这 种 情况 
下 它们 行 缓冲 ) 。 

。 所 有 其 他 VO 流 痢 是 完全 缓冲 ， 除 非 它 们 指 代 终 端 设备 (这 种 情况 
下 它们 行 缓冲 ) 。 


既然 套 接 字 不 是 终端 设备 ， 图 14-14 中 的 str_echo 函 数 的 上 述 问 题 就 
在 于 输出 流 〈fpout ) 是 完全 缓冲 的 。 本 问题 有 两 个 解决 办 法 。 第 一 个 
办 法 是 通过 调用 setvbuf 迫 使 这 个 得 出 流 变 为 行 缓冲 。 第 二 个 办 法 是 在 
每 次 调用 fputs 之 后 通过 调用 fflush 强 制 输出 每 个 回 射 行 。 然 而 在 现实 
使 用 中 ， 这 两 种 办 法 都 易于 犯错 ， 与 Nagle 算 法 〈 如 7.9 节 所 述 ) 的 交互 
可 能 也 成 问题 。 大 多 数 情况 下 ， 最 好 的 解雇 办 法 是 彻底 避免 在 套 接 字 上 
使 用 标准 WO 函数 库 ， 并 且 如 3.9 节 所 述 在 缓冲 区 而 不 是 文本 行 上 执行 操 
作 。 当 标准 IO 流 的 便利 性 大 过 对 缓冲 带 来 的 bug 的 担忧 时 ， 在 套 接 字 上 
使 用 标准 MO 流 也 可 能 可 行 ， 但 这 种 情况 很 罕见 。 


要 注意 的 是 标准 IO 库 的 某 些 实现 在 描述 符 大 于 255 情 况 下 还 有 一 个 
问题 。 这 一 点 对 于 需 处 理 大 量 描述 符 的 网 络 服 务 器 可 能 也 是 一 个 问题 。 
检查 你 的 <stdio.h> 头 文件 中 定义 的 FILE 结 构 ， 看 看 存放 描述 符 的 变量 


是 什么 类 型 。 








14.9 ”高 级 轮 询 技术 


我 们 已 在 本 章 早先 讨论 过 为 套 接 字 操 作 设 置 时 间 限 制 的 徊 干 方法 。 
如 今 许多 操作 系统 还 提供 其 他 可 选 方法 ， 它 们 具备 我 们 已 在 第 6 章 中 讲 
解 过 的 select 和 poll 这 两 个 函数 的 特性 。 这 些 方法 尚未 被 POSIX 采 纳 ， 
而 且 在 不 同 实 现 上 存在 细微 差异 ， 因 此 使 用 这 些 机 制 的 代码 应 被 认为 是 
不 可 移植 的 。 本 市 介绍 两 个 机 制 ， 其 他 机 制 与 它们 类 似 。 


14.9.1 /dev/poll 接 口 


Solaris 上 名 为 /dev/pol1 的 特殊 文件 提供 了 一 个 可 扩展 的 轮 询 大 量 描 
述 符 的 方法 。select 和 pol1 存 在 的 一 个 问题 是 ， 每 次 调用 它们 者 得 传递 
竺 查询 的 文件 描述 符 。 轮 询 设 备 能 在 调用 之 间 维 持 状 态 ， 因 此 轮 询 进程 
可 以 预先 设置 好 竺 得 询 描述 符 的 列表 ， 然 后 进入 一 个 循环 等 竺 事件 发 
生 ， 每 次 循环 回来 时 不 必 再 次 设置 该 列表 。 
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打开 /dev/poll 之 后 ， 轮 询 进程 必须 先 初始 化 一 个 pollfd 结 构 
( 即 pol1l 函 数 使 用 的 结构 ， 不 过 本 机 制 不 使 用 其 中 的 revents 成 员 ) 数 
组 ， 再 调用 write 往 /dev/poll 设 备 上 写 这 个 结构 数组 以 把 它 传递 给 内 
核 ， 然 后 执行 joct1 的 DP_PoLL 命 令 阻 塞 自 号 以 等 待 事件 发 生 。 传 递 给 
ioct1 调 用 的 结构 如 下 : 
struct dvpoll { 
struct pollfd* dp fds; 
int dp nfds; 


int dp timeout; 


} 








其 中 dp_fds 成 员 指 向 一 个 缓冲 区 ， 供 ioct1 在 返回 时 存放 一 个 poLLfd 
结构 数组 。dp_nfds 成 员 指定 该 缓冲 区 的 大 小 。ioct1 调 用 将 一 直 阻 塞 到 
任何 一 个 被 轮 询 描述 符 上 发 生 所 关心 的 事件 ， 或 者 流逝 时 间 超 过 经 
由 dp_timeout 成 员 指 定 的 毫秒 数 为 止 。dp_timeout 指 定 为 0 将 导致 ioct1l 
立即 返回 ， 从 而 提供 了 使 用 本 接口 的 非 阻塞 手段 。dp_timeout 指 定 为 -1 
表示 没有 超时 设置 。 


我 们 把 图 6-13 中 使 用 select 的 str_cli 函 数 改 为 图 14-15 中 使 
FA /dev/poll HAAS « 


oolviest cii polf3 c 
1 #include "unp.h* 
? #include <syet/devpoll bs 


3 void 

4 str cli;FILE *fz. inz sovxid) 

sí 

é inz stdineof; 

? char buf [£AXLINE]; 

8 inz n; 

3 inz wfd; 

20 struct pcllfi pclifdi2); 

2l etruct dvpoll dcpoll; 

-2 inz 1i 

RE in: result; 

L4 wie - Openi"/dev/-2cll", O 8CZWR, C); 

25 pollfa[o) .fa = 了 ilenc(rp); 

26 pollfd[O].events = POLLIN; 

= pollfd[2].zeoents = 0; 

-8 polltd[ll.fd = cocktd; 

2g pollfd|ll.evcnto = POLLIN: 

20 polltdi1l].revents = 0; 

21 Writeia«fd, pollfd, sizeofistzuct pollfdj * 2); 

22 etcineoft = Cr 

23 for fr) TX 

24 /* bioc* until /dev/poll cayo comethirg is ready */ 
25 dopoll.dp timeout = -1; 

26 dopoll.dp nfcCc = 2: 

27 dopolil.óp fic = vcllfd; 

28 result = loczl(wfd, DP LOLL, &dopcll); 

29 /* loop through ready file descriptors */ 

20 for (å = 0; 1 < result; iin) | 

31 if (dopoll.dp zds(il].fd == sockfd) | 

32 /* socket is readable */ 

33 if | (n = Readisockfd, bof, MAXITMR)! == 0) { 
34 if jatcineost == 1l 

35 return; /* normal termination */ 
36 else 

37 er: quit ("st cli: server Lecmicatleld poemalurely") ; 
38 } 

39 Wrote (cilenoistdcut), buf, n); 

40 ) else { 

AL /* inzut is readable */ 

42 if | (n = Read(ifiienc(fp), buf, MAXLINE)) == C! 4 
43 Btdingof = 1; 

44 Shutdown (sockid, SHUT WR);  /* send FIN */ 
45 contim.e; 

46 } 

47 Writen(sockid, kuf, mi; 

48 } 

49 ] 

50 } 

51 } 


velviesfe cii potf03 c 


图 14-15 ”使 用 /dev/po11 的 str_cli 隙 数 


回 /dev/pol1 提 供 描述 符 列 表 

14-21 填写 好 一 上 pollLfd 结 构 数组 后 ， 把 它 传递 给 /dev/poll。 本 
例子 只 需要 2 个 擂 述 符 ， 我 们 于 是 使 用 静态 数组 。 使 用 /dev/poll 的 现实 
程序 可 能 需要 监视 成 百 个 甚至 上 干 个 描述 符 ， 它 们 的 这 个 数组 有 可 能 是 
动态 分 配 的 。 
等 待 有 事 可 做 


24-28 ”让 进程 阻塞 在 ioct1l 调 用 上 上， 等 待 有 事 可 做 。ioct1 的 返回 值 
就 是 已 就 绪 描 述 符 的 个 数 。 
A E TATE 

30-49 ”本 例子 的 代码 相当 简单 ， 因 为 我 们 知道 就 绪 的 描述 符 不 外 
乎 sockfd 和 输入 文件 描述 符 。 规 模 较 大 的 程序 描述 符 授 查 工作 比较 复 
杂 ， 可 能 涉及 往 线 程 派 遗 任务 。 
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14.9.2  kqueuejZ O 


FreeBSD 随 4.1 版 本 引入 了 kqueue 接 口 。 本 接口 允许 进程 问 内 核 注 册 
描述 所 关注 kqueue 事 件 的 事件 过 滤器 (event filter) 。 事 件 除 了 与 select 
所 关注 类 似 的 文件 VO 和 超时 外 ， 还 有 异步 WO、 文 件 修 改 通知 (例如 文 
件 被 删除 或 修改 时 发 出 的 通知 ) 、 进 程 跟 踪 〈 例 如 进程 调用 exit 或 fork 
时 发 出 的 通知 ) 和 信号 处 理 。kqueue 接 口 包 括 如 下 2 个 函数 和 1 个 安 。 


#include <sys/types.h> 
#include «sys/event.h» 
#include <sys/time.h> 


int kqueue(void); 

int kevent(int kg, const struct kevent *changelist, int nchanges, 
struct kevent *eventlist, int nevents, 
const struct timespec *timeout); 

void EV_SET(struct kevent *kev, uintptr_t ident, short filter, 
u_short flags, u_int fflags, intptr_t data, void *udata); 


kqueue 国 数 返 回 一 个 新 的 kqueue 描 述 符 ， 用 于 后 续 的 kevent 调 用 
中 。kevent 函 数 既 用 于 注册 所 关注 的 事件 ， 也 用 于 确定 是 否 有 所 关注 事 


件 发 生 。changelist 和 mchanges 这 两 个 参数 给 出 对 所 关注 事件 做 出 的 更 
改 ， 若 无 更 改 则 分 别 取 值 NuLL 和 和 6。 如果 nchanges 不 为 0，kevent 函 数 就 
执行 changelist 数 组 中 所 请 求 的 每 个 事件 过 滤器 更 改 。 其 条 件 已 经 触 肥 的 
任何 事件 (包括 刚 在 changelist 中 增 设 的 那些 事件 ) on a 
eventlist 参 数 返 回 ， 它 指 问 一 个 由 nevents 个 元 素 构 成 的 kevent 数 

组 。kevent 函 数 在 eventlist 中 返回 的 事件 数目 作为 函数 返回 值 返回 ，0 表 
示 发 生 超时 。 超 时 通过 timeout 参 数 设置 ， 其 处 理 类 似 select: NULLI Æ 
进程 ， 非 0 值 timespec 指 定 明 确 的 超时 值 ，0 值 timespec 执 行 非 阻 塞 事 件 
检查 。 注 意 ，kevent 使 用 的 timespec 结 构 不 同 于 select 使 用 的 timeval 结 
构 ， 前 者 的 分 辨 率 为 纳 秒 ， 后 者 的 分 辨 率 为 微 秒 。 


kevent 结 构 在 头 文 件 <sys/event .h> 中 定义 : 


struct kevent { 








uintptr t ident; /* identifier (e.g., file descriptor) */ 
short filter; /* filter type (e.g., EVFILT READ) */ 
u short flags; /* action flags (e.g., EV ADD) */ 
u int fflags; /* filter-specific flags */ 
intptr t data; /* filter-specific data */ 
void *udata; /* opaque user data */ 
HN 
405 


其 中 flags 成 员 在 调用 时 指定 过 滤器 更 改行 为 ， 在 返回 时 额外 给 出 条 
件 ， 如 图 14- 16 所 示 。 


ms [3 3 TER TH 


EV E) 增设 事件 ;自动 启用 ， 除 在 同时 指定 Ew DISABLE 
EV CLEAR 月 户 获取 后 复位 事件 状态 
EV_DELETS 删 险 事件 
EV DISABLS | 林 用 束 件 但 不 删除 
; FNABRIL3 E xir 启用 先前 禁用 的 事件 
Ev ONESHOT | 者 发 一 次 后 删除 事件 


EV FOF : FEOF% fi 


EV ERROR REE: errnof'ifzéatal ta 








图 14-16 kevent 4444 HY flags KK và 


filter 成 员 指 定 的 过 小 器 类 型 如 图 14-17 所 示 。 





EVFILT AIO HoEVOE4F (6.2 13) 
EVFILT PROC 进程 exit、fcrk 或 exec 事 件 
EVFILT READ 描述 符 可 读 ， 类 似 select 


EVFILT SIGNAL | Kags 

BOREAS LR Je] BAPE ok — A PERN E BY a 
A VENUE 文件 修改 和 删除 事件 
EPEA, Wy 描述 符 可 写 ， 类 似 select 


图 14-17 kevent #444 filter EX fà 


我 们 把 图 6-13 中 使 用 select 的 str_c1li 函 数 改 为 图 14-18 中 使 
用 kqueue 的 版 本 。 





1 fincluce 


A 


= 


44 


EU 


"unp.h 1 


2 void 
3 str C.i(PZLE *fp, int sccktfaj 


int ks, i, n, nev, stdineok = 0, iefile; 
char buf [M^X.INE]; 
struct kevenc kev [2] : 


struct timespec ts; 
struct Stat Bt; 


isfile = ((fsrar (filTeno(?rn|, 
(SE .st mode & S TEMT) == 


G87) zs 0) Kk 
X TFRRG); 


EV SET(&kev[0], Tileno(fp). 
EV SET (&kev [1], 


EVFILT READ, EV RD, 


kg = Kzurue!); 


ts.tv sec - ts.tv_nsec - 0; 
Kevent(kz, kev, 2, NULL, 0., &tsl; 
fe | xs kd 
nev = Kevent(kq, NULL, J, kev, 2, NULL); 


tor (i = 0; 1 < nev; i++) | 
if (xev[i].ident == ecckfd) { 


adviestr_cli_kquenei4.c 


0, 0, NULL): 
sockid, EVFILT READ, EV ADD, 0, 0, MULL); 


/* socket is readable */ 


if | (n - Read{(csockfd, buf, MAXLIN3)) -- 0} [ 


if istdinsof == 1) 
return; /* normal terminatlon */ 
else 
err quit ("slr vli: server 


) 


Write (Cilens(stcout}, buf, m); 


r 


lerram rat en? 


prenat irelyti; 


if /xev[il.ident == filenoi=p!) | /* input is readable */ 


n = Read(fileno(fz], buf, MAXLING! ; 
if in > 0) 
Writen(sockfd, buf, ni; 


if in == 0 || 
ctdineot = 1; 
Shutdown (eeckfd, SHUT WR); 
kev [i] .flags » 4V DELETE; 
Kevent (kq, aukev(i], 1, NULL, 0, sts); 
continue; 


图 14-18 ”使 用 kqueue 的 str_cl1i 函 数 





判定 文件 指针 是 否 指 癌 文 件 
kqueue 储 到 EOF 的 处 理 行为 取决 于 文件 描述 符 关 联 的 是 文 
件 、 管 道 还 是 终端 ， 因 此 我 们 调用 fstat 判 定 由 调用 者 指定 的 文件 指针 
是 否 关 联 一 个 文件 。 本 判定 手段 以 后 还 会 用 到 。 


为 kqueue 设 置 kevent 结 构 


un 11 


lisE-1e &£& n == kev[i].data)! 


f 
1 


/* send FIN */ 


/* remove kevent */ 


eadvioistr eii. kqueicud.c 


12-13 ”使 用 Ev_sET 宏 设置 2 个 kevent 结 构 ， 它 们 都 指定 类 型 为 读 的 
过 滤器 (EvFILT_READ) ， 并 请 求 把 本 事件 加 入 该 过 滤器 中 (EV ADD) . 


创建 kqueue 并 增设 过 滤器 

14-16 ”调用 kqueue 取 得 一 个 kqueue 描 述 符 ， 把 超时 值 设 为 0 以 便 非 
阻塞 地 调用 kevent， 以 设置 好 的 kevent 结 构 数 组 作为 过 滤器 更 改 请 求 调 
用 kevent。 
无 限 循环 ， 阻塞 在 kevent 中 

17-18 进入 无 限 循环 ， 每 次 循环 回来 都 阻塞 在 kevent 中 。 每 次 调 
用 kevent 指 定 的 过 滤器 更 改 列表 为 NuLL〔 因 为 我 们 仅仅 关注 早已 注册 过 
的 事件 ) ， 超 时 参数 为 NULL AHE) 。 
遍 查 返回 的 事件 

19 通 碍 返回 的 每 个 事件 并 分 别处 理 它 们 。 
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套 接 字 变 为 可 读 
20-28 ”这 段 代 人 码 与 图 6-13 一 样 。 
输入 变 为 可 读 


20-40 ”这 上 段 代 码 类 似 图 6-13， 不 过 为 了 人 处理 kqueue 的 EOF 报 告 方 
式 ， 在 代码 结构 上 稍 有 调整 。 对 于 管道 和 终端 ，kqueue 束 像 select 那 样 
返回 一 个 可 读 指 示 表 示 有 一 个 EOF 待 处 理 。 然 而 对 于 文件 ，kqueue 只 是 
在 kevent 结 构 的 data 成 员 中 返回 文件 中 剩余 字 节 数 ， 并 假设 应 用 进程 能 
够 由 此 获悉 是 否 到 达 文 件 尾 。 我 们 于 是 首先 把 本 处 理 循 环 重 构成 奇 读 入 
字 节 数 非 0 则 把 数据 写 出 到 网 络 。 接 着 把 EOF 判 断 条 件 改 为 读 入 字 节 数 
为 0〈 或 者 对 于 文件 而 言 ， 读 入 字 节 数 等 于 文件 中 剩余 字 节 数 ) 。 最 
后 ， 把 图 6-13 中 使 用 FD_cLR 从 描述 符 集 中 删除 输入 摘 述 符 的 代码 改 为 设 
置 Ev_DELETE 标 志 调 用 kevent 从 内 核 维护 的 过 滤器 中 删除 本 事件 。 


14.9.3 ”建议 


就 这 些 新 近 发 展 中 的 接口 而 言 ， 阅 读 它们 特定 于 操作 系统 具体 版 本 
的 文档 时 必须 小 心 。 这 些 接 口 在 不 同 版 本 之 间 往 往 存 在 细微 的 差别 ， 因 
为 操作 系统 厂商 仍然 在 推 融 它们 该 如 何 工 作 的 细节 。 

尽管 总 地 说 来 应 该 避免 编写 不 可 移植 的 代码 ， 然 而 对 于 一 个 任务 繁 
重 的 网 络 应 用 程序 而 言 ， 使 用 各 种 可 能 的 方式 为 它 在 特定 的 主机 系统 上 
进行 优化 也 相当 普通 。 








14.10 T/TCP: 事务 目的 TCP 乌 


T/TCP 是 对 TCP 进 行 过 略微 修改 的 一 个 版 本 ， 能 够 避免 近来 彼此 通 
言 过 的 主机 之 间 的 三 路 握手 。 关 于 T/TCP 详 见 TCPvV3、RFC 
1379 [Braden 1992b] 和 RFC 1644 [Braden 1994] . 


T/TCP 最 广 为 流 传 的 实现 是 在 FreeBSD 中 。 


T/TCP 能 够 把 SYN、FIN 和 数据 组 合 到 单个 分 节 中 ， 前 提 是 数据 的 
大 小 小 于 MSS。 图 14-19 展 示 最 小 T/TCP 事 务 的 时 间 线 。 第 一 个 分 节 是 由 
客户 的 单个 sendto 调 用 产生 的 SYN、FIN 和 数据 。 该 分 节 组 合 了 
connect、write 和 shutdown 共 三 个 调用 的 功能 。 服 务 器 执行 通常 的 套 接 
字 函 数 调 用 步骤 : socket、bind、1isten 和 accept， 其 中 后 者 在 客户 的 
分 节 到 达 时 返回 。 服 务 器 用 send 发 回 其 应 答 并 关闭 套 接 字 。 这 使 得 服务 
器 在 同一 个 分 节 中 向 客户 发 出 SYN、FIN 和 应 答 。 比 较 图 14-19 和 图 2- 
5， 我 们 看 到 不 仅 需 在 网 络 中 传输 的 分 节 有 所 减少 (CTATCP 需 3 个 ，TCP 
需 10 个 ，UDP 需 2 个 ) ， 而 且 客 户 从 初始 化 连接 到 发 送 一 个 请 求 再 到 读 
取 相应 应 答 所 花费 的 时 间 也 减少 了 一 个 RTT。 


服务 名 


| socket, Lind, listen 











l i | accept ([H3E ) 
socket SYN FIN. X 
MCN Le 1 (Wu (Neu " 
, senózo Sa a CORR) O acceot yis] 
read (pl 3E ) readjiick 
< 服务 器 处 理 请 求 > 
CW ie) ser.dhy 答 
四 BAS i 
SYN FINES E close 
u EE y" INH fi ye 
readjZ [4] 
服务 AFIN IH) Gf u — 





图 14-19 ”最 小 T/TCP 事 务 的 时 间 线 


T/TCP 的 优势 在 于 TCP 的 所 有 可 靠 性 (序列 号 、 超 时 、 重 传 ， 等 
等 ) 得 以 保留 ， 而 不 像 UDP 那 样 把 可 靠 性 推 给 应 用 程序 去 实现 。T/TCP 
同样 维持 TCP 的 慢 启 动 和 拥塞 避免 措施 ，UDP 应 用 程序 却 往往 缺乏 这 些 


特性 


o 


这 里 我 们 忽略 了 一 些 细节 ， 它 们 都 在 TCPv3 中 讨论 。 举 例 来 说 ， 客 





户 与 服务 器 第 一 次 通信 时 三 路 握手 是 需要 的 。 不 过 将 来 只 要 两 端 各 自 高 
速 缓存 的 一 些 信 息 都 没 过 时 ， 并 且 没 有 一 端的 主机 裔 泪 并 重启 过 ， 那 么 
就 可 以 避免 三 路 握手 。 网 14-19 展 示 的 3 个 分 节 构 成 最 少 请 求 -应 答 交 换 。 
如 果 或 者 请 求 或 者 应 答 超过 一 个 分 节 的 承载 量 ， 那 就 需要 额外 的 分 节 。 
术语 “事务 ”的 售 义 是 客户 的 请 求 与 服务 器 的 应 答 。 常 见 的 事务 例子 有 
DNS 请 求 与 服务 器 的 应 答 以 及 HTTP 请 求 与 服务 器 的 应 答 。 该 术语 并 非 
用 于 指称 两 阶段 提交 协议 (two-phase commit protococl) 。 





为 了 处 理 TITCP， 套 接 字 API 需 作 些 变动 。 我 们 指出 ， 在 提供 T/TCP 


的 系统 上 TCP 应 用 程序 无 需 任何 改动 ， 除 非 要 使 用 TITCP 的 特性 。 所 有 
现 有 TCP 应 用 程序 继续 使 用 我 们 已 经 讲述 过 的 套 接 字 API 工 作 。 


客户 调用 sendto， 以 便 把 数据 的 发 送 结合 到 连接 的 建立 之 中 。 该 调 
用 蔡 换 单独 的 connect 调 用 和 write 调用 。 服 务 器 的 协议 地 址 改 为 传 
325 sendtolfi] 4 z& connect. 

新 增 一 个 输出 标志 MsG_EoF (参见 图 14-6) ， 用 于 指示 本 套 接 字 上 不 
再 有 数据 待 发 送 。 该 标志 允许 我 们 把 shutdown 调 用 结合 到 输出 操作 
(send 或 sendto) 之 中 。 给 一 个 sendto 调 用 同时 指定 本 标志 和 服务 
右 的 协议 地 址 有 可 能 导致 发 送 捍 个 含有 SYN、FIN 和 数据 的 分 节 。 
我 们 还 在 图 14-19 中 指出 ， 服 务 器 发送 应 答 使 用 的 是 send 而 不 

是 write， 其 原因 在 于 为 了 指定 MsG_EoF 标 志 ， 以 便 随 应 答 一 起 发 送 
FIN. 〈 不 要 把 这 个 新 标志 与 已 有 的 MsG_EoR 标 志 混 为 一 谈 ， 后 者 为 
面 癌 记录 的 协议 指示 记录 结束 条 件 ) o 

新 定义 一 个 级 别 为 IPPROTO_TCP 的 套 接 字 选项 TcP_NoPUSH。 本 选项 防 
止 TCP 只 为 腾空 套 接 字 发 送 缓冲 区 而 发 送 分 节 。 当 某 个 客户 准备 以 
单个 sendto 发 送 一 个 请 求 时 ， 如 果 该 请 求 大 小 超过 MSS， 它 就 应 该 
为 相应 套 接 字 设置 本 选项 ， 以 减少 所 发 送 分 节 的 数目 。TCPvV3 第 47 
一 49 页 详细 讨论 了 这 个 新 套 接 字 选项 。 

想 跟 一 个 服务 器 建立 连接 并 且 使 用 TATCP 发 送 一 个 请 求 的 客户 应 该 
Wil socket. setsockopt (JF /4TCP_NOPUSHiZ3i1) 和 sendto CE R 
有 一 个 请 求 待 发 送 则 指定 MSG_EOF 标 志 ) 。 如 果 setsockopt 返 回 
ENOPROTOOPT 错 误 或 者 sendto 返 回 ENoTCONN 错 误 ， 那 么 本 主机 不 支持 
T/TCP。 这 种 情况 下 客户 可 以 干脆 调用 connect 和 write， 加 上 可 能 
后 跟 的 shutdown 〈 如 果 只 有 一 个 请 求 符 发 送 ) 。 














e 服务 器 所 需 的 唯一 变动 是 ， 如 果 服 务 器 想 随 应 答 一 起 发 送 FIN， 它 
束 应 该 指定 Ms6_Eo0F 标 志 调 用 send 以 友 送 应 答 ， 而 不 是 调用 write 以 
e T/TCP 的 编译 时 测试 可 以 使 用 伪 代 码 #ifdef MSG_EOF. 


TCPv3 的 附录 B 包 含 TTCP 客 户 程序 和 服务 器 程序 的 例子 。 


14.11 “p24 
在 套 接 字 操作 上 设置 时 间 限 制 的 方法 有 三 个 : 


e 使 用 alarm 函 数 和 SITGALRM 信 和 号; 
e 使 用 由 select 提 供 的 时 间 限 制 ; 
e 使 用 较 新 的 So_RcvTIME0 和 So_SNDTIME0 套 接 字 选 项 。 


第 一 个 方法 易于 使 用 ， 不 过 涉及 信号 处 理 ， 而 信号 处 理 正 如 我 们 将 
在 20.5 节 看 到 的 那样 可 能 导致 竞争 条 件 。 使 用 select 意 味 痢 我 们 阻塞 在 
指定 过 时 间 限 制 的 这 个 函数 上 ， 而 不 是 阻塞 在 read、write 或 connect 调 
用 上 。 第 三 个 方法 也 易于 使 用 ， 不 过 并 非 所 有 实现 都 提供 。 


recvmsg 和 sendmsg 是 所 提供 的 5 组 MO 函数 中 最 为 通用 的 。 它 们 组 合 
SUR REA: 指定 MsG_xxx 标 志 (HHA recv#llsend) ， 返 回 或 指定 对 端的 
协议 地 址 (出 自 recvfrom 和 sendto) ， 使 用 多 个 缓冲 区 〈 出 自 readv 和 
writev) 。 此 外 还 增加 了 两 个 新 的 特性 : 给 应 用 进程 返回 标志 ， 接 收 或 
发 送 辅助 数据 。 
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我 们 在 文中 讲述 了 10 种 不 同 格式 的 辅助 数据 ， 其 中 6 种 是 随 IPv6 新 
定义 的 。 辅 助 数据 由 一 个 或 多 个 辅助 数据 对 象 构成 ， 每 个 对 象 都 以 一 
个 cmsghdr 结 构 打 头 ， 它 指定 数据 的 长 度 、 协 议 级 别 及 类 型 。5 个 以 
CMSG_ 打头 的 函数 可 用 于 构建 和 分 析 辅 助 数据 。 


C 标 准 WVO 函 数 库 也 可 以 用 在 套 接 字 上 ， 不 过 这 么 做 将 在 已 经 由 TCP 
提供 的 缓冲 级 别 之 上 新 增 一 级 缓冲 。 实 际 上 ， 对 由 标准 IO 函数 库 执行 
的 缓冲 缺乏 了 解 是 使 用 这 个 函数 库 最 常见 的 问题 。 既 然 套 接 字 不 是 终端 
设备 ， 这 个 潜在 问题 的 常用 解决 办 法 就 是 把 标准 IO 流 设 置 成 不 缓冲 ， 
或 者 干脆 不 要 在 套 接 字 上 使 用 标准 IO。 

许多 厂家 提供 轮 询 大 量 事 件 却 没有 select 和 poll 所 需 开 销 的 高 级 方 


法 。 尽 管 应 该 避免 编写 不 可 移植 的 代码 ， 有 时 候 性 能 改善 的 收益 会 重 于 
不 可 移植 造成 的 风险 。 











TATCP 是 对 TCP 的 一 个 简单 增强 版 本 ， 能 够 在 客户 和 服务 器 近来 彼 
此 通信 过 的 前 提 下 避免 三 路 握手 ， 使 得 服务 器 对 于 客户 的 请 求 更 快 地 给 
出 应 答 。 从 编程 角度 看 ， 客 户 通 过 调用 sendto 而 不 是 通常 的 connect、 
write 和 shutdown 调 用 序列 发 挥 T/TCP 的 优势 。 








习题 


14.1 在 图 14-1 中 ， 如 果 当 我 们 重新 设置 STGALRM 的 信号 处 理 函 数 时 
进程 未 曾 建 并 过 sIGALRM 的 任何 信号 处 理 函 数 ， 那 将 会 及 生 什么 ? 


14.3 ”在 图 14-1 中 ， 如 果 进 程 已 设置 了 一 个 alarm 定 时 
器 ，connect_timeo 就 显示 一 个 警告 。 修 改 该 国 数 ， 使 得 它 在 connect 调 
用 之 后 和 上 自身 返回 之 前 重新 设置 这 个 alarm 定 时 器 。 


143 如 下 修改 图 11-11: 在 调用 read 之 前 指定 MsG_PEEK 标 志 调 
用 recv，recv 返 回 后 再 以 FIONREAD 命 令 调 用 ioct1， 并 显示 已 排队 在 套 接 
字 接 收 缓冲 区 中 的 字 厄 数 ， 然 后 调用 read 真 正 读 入 数据 。 


14.4 ”如 果 进 程 自然 掉 出 main 函 数 末 尾 ， 而 不 是 调用 exit 退 出 ， 标 
准 VO 缓 冲 区 中 尚未 输出 的 数据 将 会 发 生 什么 ? 


14.5 按照 图 14-14 之 后 讲解 的 两 个 方法 修改 图 中 程序 ， 验 证 它们 确 
实 能 够 解决 缓冲 问题 。 
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Q@ 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 180~~181 
页 ， 第 2 版 中 文 版 为 第 148 一 149 页 。 一 ”编者 注 


急 本 节 为 本 书 的 第 2 版 的 内 容 ， 本 版 的 新 作者 删 掉 了 这 一 节 。 这 部 分 入 
容 还 是 很 重要 的 ， 故 此 处 保留 了 这 一 部 分 内 容 。 一 一 译 者 注 





第 15 草 ”Unix 域 协议 


15.1 概述 


Unix 域 协议 并 不 是 一 个 实际 的 协议 族 ， 而 是 在 单个 主机 上 执行 客 
户 /服务 器 通信 的 一 种 方法 ， 所 用 API 就 是 在 不 同 主机 上 执行 客户 /服务 器 
通信 所 用 的 API〈 矢 接 字 API) 。 本 系列 书 第 2 卷 介绍 的 进程 间 通 信 
APC) 实际 上 融 是 单个 主机 上 的 客户 /服务 需 通 信 ，Unix 域 协议 因此 可 
视 为 IPC 方 法 之 一 。TCPV3 的 第 三 部 分 提供 了 在 源 自 Berkeley 的 内 核 中 真 
正 实 现 Unix 域 套 接 字 的 细节 。 


Unix 域 提供 两 类 套 接 字 : 字 节 流 套 接 字 〈 类 似 TCP) 和 数据 报 套 接 
Z (类似 DUP) 。 尽 管 也 提供 原始 套 接 字 ， 不 过 它 的 语义 不 曾 见 于 任何 
文档 ， 作 者 们 也 未 见 过 任何 使 用 它 的 程序 ，POSIX 也 没有 它 的 定义 。 


使 用 Unix 域 套 接 字 有 以 下 3 个 理由 。 


(1) 在 源 自 Berkeley 的 实现 中 ，Unix 域 套 接 字 往往 比 通信 两 端 位 于 同 
一 个 主机 的 TCP 套 接 字 快 出 一 倍 (TCPv3 第 223~224 页 ) > X Window 
System 发 挥 了 Unix 域 套 接 字 的 这 个 优势 。 当 一 个 X11 客 户 启动 并 打开 到 
X11 服务 器 的 连接 时 ， 该 客户 检查 pISPLAY 环 境 变 量 的 值 ， 其 中 指定 服务 
器 的 主机 名 、 窗 口 和 屏幕 。 如 果 服 务 器 与 客户 处 于 同一 个 主机 ， 客 户 就 
E 否则 打开 一 个 到 服务 器 的 TCP 
JETER o 
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(2) Unix 域 套 接 字 可 用 于 在 同一 个 主机 上 的 不 同 进程 之 间 传 递 描述 
从。 我 们 将 在 15.7 市 提供 一 个 传递 描述 符 的 完整 例子 。 

(3 Unix 域 套 接 字 较 新 的 实现 把 客户 的 凭证 〈 用 尸 ID 和 组 ID) 提供 
d 从 而 能 够 提供 额外 的 安全 检查 措施 。 我 们 将 在 15.8 节 讲解 攒 
证 的 收发 。 


Unix 域 中 用 于 标识 客户 和 服务 器 的 协议 地 址 是 普通 文件 系统 中 的 路 














径 名 。 我 们 知道 IPv4 协 议 地 址 由 一 个 32 位 地 址 和 一 个 16 位 端口 号 构成 ， 
IPv6 协 议 地 址 则 由 一 个 128 位 地 址 和 一 个 16 位 端口 号 构成 。 这 些 路 径 名 
不 是 普通 的 Unix 文 件 ， 除非 把 它们 和 Unix 域 套 接 字 关 联 起 来 ， 否 则 无 法 
读 写 这 些 文 件 。 





15.2 ”Unix 域 套 接 字 地 址 结构 


" 图 15-1 列 出 了 在 头 文件 <sys/un.h> 中 定义 的 Unix 域 套 接 字 地 址 结 


struct sockadór un í 
sa family t sun family: /* AF LOCAL */ 
char sur path[104]; /* mull-terminated pathname */ 


Ly 
图 15-1 Unix 域 套 接 字 地 址 结构 sockaddr_un 


BSD 早 期 版 本 定义 sun_path 数 组 的 大 小 为 108 字 节 ， 而 不 是 图 中 所 
示 的 104 字 节 。POSIX 规 范 没 有 定义 sun_path 数 组 的 大 小 ， 而 且 明 确 警 
示 应 用 进程 不 应 该 假设 一 个 特定 长 度 。 应 用 进程 应 该 在 运行 时 刻 使 
用 sizeof 运 算 符 得 出 本 结构 的 长 度 ， 再 验证 一 个 路 径 名 是 否 适 合 存放 到 
其 中 的 sun_path 数 组 。 数 组 长 度 很 可 能 在 92 到 108 之 间 ， 而 不 是 足以 存 
放任 何 路 径 名 的 更 大 的 值 。 存 在 这 些 限制 缘起 于 湖上 自 4.2BSD 的 实现 细 
节 ， 要 求 本 结构 适合 装 入 一 个 128 字 节 的 mbuf 〈 一 种 内 核 内 存 缓冲 
[E 2^4 


存放 在 sun_path 数 组 中 的 路 径 名 必须 以 空 字符 结尾 。 实 现 提供 的 
SUN_LEN 宏 以 一 个 指向 sockaddr_un 结 构 的 指针 为 参数 并 返回 该 结构 的 长 
度 ， 其 中 包括 路 径 名 中 非 空 字 节 数 。 未 指定 地 址 通过 以 空 字符 串 作 为 路 
径 名 指示 ， 也 就 是 一 个 sun_path[9] 值 为 0 的 地 址 结构 。 它 等 价 于 IPv4 的 
INADDR_ANY 常 值 以 及 IPv6 的 IN6ADDR_ANY_INIT 常 值 。 


POSIX 把 Unix 域 协议 重新 命名 为 “本 地 IPC”， 以 消除 它 对 于 Unix 操 
作 系 统 的 依赖 。 历 史 性 常 值 AF_UNIX 变 为 AF_LOCAL。 尽 管 如 此 ， 我 们 依然 
使 用 “Unix 域 > 这 个 称谓 ， 因 为 这 已 成 为 它 约定 俗 成 的 名 字 ， 与 支撑 它 的 
操作 系统 无 关 。 另 外 ， 尽 管 POSIX 努 力 使 它 独立 于 操作 系统 ， 它 的 套 接 
字 地 址 结构 仍然 保留 _un 后 级 。 
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例子 : Unix 域 套 接 字 的 bind 调 用 


图 15-2 中 的 程序 创建 一 个 Unix 域 套 接 字 ， 往 其 上 bind 一 个 路 径 名 ， 
再 调用 getsockname 输 出 这 个 绑 定 的 路 径 名 。 





unixdonmiirnixbind.c 


1 &£ircluze "unrp.l* 

2 int 

3 main(int argc, char **argv) 

a { 

5 int socktd; 

€ socklen t len, 

7 struct sockaddr un addel, addr2; 

& i: (arce != 2) 

9 err quití("usage: unixbind <pathnans>") ; 
10 sockfd = Sccke-;AF LOCAL, SOCK STREAM, 0): 

11 unlirk(argv[1]); /* OK if tria fails */ 

12 beero(GSacdr., aizeof(addrz1:); 

12 edd-l.sur family = AF_LOCAL; 

14 strncopyíaddri.sun path, argv 1], sizeof(sddri1. sur path!-1): 
15 Bind(occktfd, (SA *| &addrz1, SUN LzN(&addrl);; 

1é len = sivecf (addr2); 

17 Getsocknsma;sockfd, (SA *) &addr2, «len!; 

1§ prints ("bound name = *5, returned len = d\n", acdr2.sum_path, lenj; 
19 exit (0) ; 


下 


图 15-2 ”给 一 个 Unix 域 套 接 字 bind 一 个 路 径 名 
删除 路 径 名 


ii 我 们 调用 bind 捆 绑 到 套 接 字 上 的 路 径 名 就 是 命令 行 参数 。 如 果 
文件 系统 中 已 存在 该 路 径 名 ，bind 将 会 失败 。 为 此 我 们 先 调用 unlink 删 
除 这 个 路 径 名 ， 以 防 它 已 经 存在 。 如 果 它 不 存在 ，unlink 将 返回 一 个 我 
们 要 将 其 忽略 的 错误 。 


bind 然 后 getsockname 


12-18 ”我 们 使 用 strncpy 复 制 命令 行 参 数 ， 以 免 路 径 名 过 长 导致 其 
溢出 结构 。 既 然 我 们 已 把 该 结构 初始 化 为 0， 并 且 从 sun_path 数 组 的 大 
小 中 减 去 1， 可 以 肯定 该 路 径 名 将 以 空 字符 结尾 。 之 后 调用 pind， 并 使 
用 suN_LEN 宏 计算 bind 的 长 度 参 数 。 接 着 调用 getsockname 取 得 刚 绑 定 的 
路 径 名 并 显示 结果 。 
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如 果 在 Solaris 系 统 上 运行 本 程序 ， 我 们 得 到 如 下 结 





solaris % umask 先 输出 umask 的 值 

022 shell 以 八进制 格式 输出 该 值 
solaris % unixbind /tmp/moose 

bound name = /tmp/moose, returned len = 13 

solaris % unixbind /tmp/moose 再 运行 一 次 

bound name = /tmp/moose, returned len = 13 

solaris % ls -l /tmp/moose 

Srwxr -xr-x 1 andy staff © Aug 10 13:13 /tmp/moose 
solaris % ls -1F /tmp/moose 

Srwxr -xr-x 1 andy staff © Aug 10 13:13 /tmp/moose- 












































我 们 首先 输出 umask 的 值 ， 因 为 POSIX 规 定 结果 路 径 名 的 文件 访问 
权限 应 根据 该 值 修 正 。 我 们 的 值 为 22 的 文件 模式 掩 码 关闭 组 用 户 写 位 和 
其 他 用 户 写 位 。 接 着 运行 程序 ， 看 到 getsockname 返 回 的 长 度 为 
13: sun_family 占 2 个 字 节 ， 路 径 名 占 11 个 字 节 (扣除 结尾 的 空 字 
符 ) 。 这 是 一 个 “ 值 一 结果 ”参数 的 例子 ， 函 数 返回 时 的 结果 不 同 于 调用 
函数 时 的 值 。 我 们 可 以 使 用 printf 的 %s 格 式 输出 该 路 径 名 ， 

为 sun_path 成 员 中 的 该 路 径 名 是 以 空 字 符 结尾 的 。 我 们 然后 再 次 运行 程 
序 ， 以 验证 unlink 调 用 删除 了 该 路 径 名 。 


我 们 运行 1s -1 命令 查看 文件 权限 和 类 型 。 在 Solaris (以 及 大 多 数 
Unix) 上 ， 该 路 径 名 的 文件 类 型 为 显示 为 s 的 套 接 字 。 我 们 还 注意 
到 权限 位 已 正确 地 根据 umask 值 修正 。 最 后 指定 -F 选 项 再 次 运行 ]s， 它 
会 让 Solaris 在 该 路 径 名 之 后 添加 一 个 等 号 。 


历史 上 umask 值 未 被 应 用 于 Unix 域 套 接 字 文件 ， 不 过 多 数 Unix 厂 mm 
已 渐渐 地 修复 了 这 一 点 ， 使 得 umask 如 期 地 工作 。 文 件 权 限 位 〈 不 论 
umask HE) 或 全 都 设置 或 全 不 设置 的 系统 仍然 存在 。 此 外 ， 有 些 系 
p MODUM 从 而 显示 为 p。 本 例 展示 的 是 最 常见 
9 行为 。 





15.3 socketpair Ph 2 


socketpair AAO £& WW Bü ER RN BS. APH BME F 
Unix 域 套 接 字 。 


#include <sys/socket.h> 





int socketpair(int family, int type, int protocol, int sockfd[2]); 





返回 :车 成 功 则 为 非 9， 若 出 错 则 











为 -1 


family 参 数 必须 为 AF_LocAL，protocol 参 数 必须 为 0。type 参 数 既 可 以 
是 SocKk_STREAM， DGRAM。 新 创建 的 两 个 套 接 字 描述 符 作 
为 sockfqd[0] 和 sockfqd[1] 返 
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本 函数 类 似 Unix 的 pipe 函 数 ， 会 返回 两 个 彼此 连接 的 描述 符 。 事 实 
上 ， 源 目 Berkeley 的 实现 通过 执行 与 sokcetpair 一 样 的 内 部 操作 
[TCPv3 第 253 一 254 页 ] 给 出 pipe 接 口 。 


这 样 创 建 的 两 个 套 接 字 不 曾 命名 ， 也 束 是 说 其 中 没有 涉及 隐 式 的 
bind 调 用 。 


指定 type 参 数 为 Sock_ tn at a 吉 果 称 为 流 管 道 
(stream pipe) . 它 与 调用 pipe 创 建 的 普 通 Unix 管 道 类 似 ， 差 别 在 于 流 
管道 是 全 双 工 的 ， 符 都 是 既 可 读 又 可 写 。 图 15-7 展 示 了 调 
用 socketpair 创 建 的 流 管道 


POSIX 不 要 求全 双 工 管道 dues ue cdi gb 
符 ， 而 源 自 Berkeley 的 内 核 回 两 个 半 双 工 的 描述 符 〈TCPv3 的 
17-31) 。 








15.4 fe ph 


当 用 于 Unix 域 套 接 字 时 ， 套 接 字 函数 中 存在 一 些 差 异 和 限制 。 我 们 
尽量 列 出 POSIX 的 要 求 ， 并 指出 并 非 所 有 实现 目前 都 已 达到 这 个 级 别 。 


(1) 由 bind 创 建 的 路 径 名 默认 访问 权限 应 为 0777〈 属 主 用 户 、 组 用 
户 和 其 他 用 户 都 可 读 、 可 写 并 可 执行 )， 并 按照 当前 umask 值 进行 修 
TES 





(2) “与 Unix 域 套 接 字 关联 的 路 径 名 应 该 是 一 个 绝对 路 径 名 ， 而 不 是 
一 个 相对 路 径 名 。 避 免 使 用 后 者 的 原因 是 它 的 解析 依赖 于 调用 者 的 当前 
工作 目录 。 也 束 是 说 ， 要 是 服务 器 捆绑 一 个 相对 路 径 名 ， 客 户 就 得 在 与 
服务 器 相同 的 目录 中 (或 者 必须 知道 这 个 目录 ) 才能 成 功 调 用 connect 


或 sendto。 


POSIX 声 称 给 Unix 域 套 接 字 捆绑 相对 路 径 名 将 导致 不 可 预计 的 结 
果 。 








(3) 在 connect 调 用 中 指定 的 路 径 名 必须 是 一 个 当前 绑 定 在 东 个 打开 
的 Unix 域 套 接 字 上 的 路 径 名 ， 而 且 它 们 的 套 接 字 类 型 〈 字 市 流 或 数据 
TRO 也 必须 一 致 。 出 错 条 件 包括 : (a) 该 路 径 名 已 存在 却 不 是 一 个 套 
BEP. b) 该 路 径 名 已 存在 且 是 一 个 套 接 字 ， 不 过 没有 与 之 关联 的 打 
FRR: O 该 路 径 名 已 存在 且 是 一 个 打开 的 套 接 字 ， 不 过 类 型 
不 待 〈 也 就 是 说 Unix 域 字 节 流 套 接 字 不 能 连接 到 与 Unix 域 数据 报 套 接 字 
关联 的 路 径 名 ， 反 之 亦 然 ) 。 


(4) ”调用 connect 连 接 一 个 Unix 域 套 接 字 涉及 的 权限 测试 等 同 于 调 
用 open 以 只 写 方式 访问 相应 的 路 径 名 。 


(5 ”Unix 域 字 节 流 套 接 字 类 似 TCP 套 接 字 : 它们 都 为 进程 提供 一 个 
KURUR RTF HMH o 
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(6) 如 果 对 于 某 个 Unix 域 字 节 流 套 接 字 的 connect 调 用 发 现 这 个 监听 
套 接 字 的 队列 已 满 〈4.5 节 ) ， 调 用 就 立即 返回 一 个 ECONNREFUSED 错 误 。 


这 一 点 不 同 于 TCP: WeRTCPH BREN MSI i, TCP HAH aint 2 
We EIIARISYN, mu TCPXEB A4 BUR ARIES Y NIT Bie 


(7 Unix 域 数据 报 套 接 字 类 似 于 UDP 套 接 字 : 它们 都 提供 一 个 保留 
记录 边界 的 不 可 靠 的 数据 报 服务 。 


(8) 在 一 个 未 绑 定 的 Unix 域 套 接 字 上 发 送 数据 报 不 会 目 动 给 这 个 套 
接 字 捆绑 一 个 路 径 名 ， 这 一 点 不 同 于 UDP 和 套 接 字 : 在 一 个 未 绑 定 的 UDP 
套 接 字 上 有 发送 UDP 数据 报导 致 给 这 个 套 接 字 捆 绑 一 个 临时 器 口 。 这 一 点 
意味 着 除 非 数据 报 发 送 端 已 经 捆绑 一 个 路 径 名 到 它 的 套 接 字 ， 人 否则 数据 
报 接收 端 无 法 及 回 应 答 数据 报 。 类 似 地 ， 对 于 菏 个 Unix 域 数据 报 套 接 字 
的 connect 调 用 不 会 给 本 套 接 字 捆绑 一 个 路 径 名 ， 这 一 点 不 同 于 TCP 和 
UDP。 








15.5 “Unix 域 字 节 流 客户 /服务 器 程序 


我 们 现在 把 第 5 章 中 的 TCP 回 射 客户 /服务 器 程序 重新 编写 成 使 用 
Unix 域 套 接 字 。 图 15-3 改 写 自 图 5-12 中 使 用 TCP 的 服务 器 程序 。 


univdonaiveunicsirservOl.c 





4 


2 int 


include "unp.h" 


int listenfd, conn^d; 

pid t  chiidpid; 

sccklen t cli.cn; 

straz sockacdr un clisdir, servaddr; 
veið sig ehidtint); 


liscenfd - Sccket [AF LOCAL, SICK STREAN, 0): 


ualinx(UNIXSTR DPAN7); 
bzero(&servacdr, sizeof!se-vaidr!), 
Serval. si n family = AF LOCAL: 
strcpy!servacdr.sun path, UNIXSTIR PMH); 
Bindí/lictenzG, (SA +) sservaddr, sizeof (servadar)); 
Listenilistenfa, LISTENO} ; 
SigaaliSIGCHTD, aig hldi; 
fer ( » 1) { 
clilen = eizeoficlisdar) ; 
i= [ (conn£d = accept (listenfd, (SA *! &cliaddr, &clilen!) < 2) | 
i= [errr == EINTR! 
continue; /* back to for{) */ 
clce 
err sys'"accept errcr"); 


) 


if ( (childpid = Fork() == 0) [ /* child prccess */ 


Cl2ae,;l-atentd,; /* close listening socket */ 
str_echo(connfd) ; /* process request */ 
exit (0) ; 

} 

Close (conmEd! ; /* parent closes connected socket */ 





umid woninéenlisirser vil i: 


图 15-3 ”使 用 Unix 域 字 节 流 协议 的 回 射 服务 器 程序 


8 两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 


10 


£BCT. 


socket 的 第 一 个 参数 是 AF_LocAL， 用 以 创建 一 个 Unix 域 字 节 流 


11-15 ”unp.h 中 定义 的 UNIXSTR_PATH 和 常 值 为 /tmp/unix.str。 我 们 首 
先 unlink 该 路 径 名 ， 以 防 早先 某 次 运行 本 程序 导致 该 路 径 名 已 经 存在 ; 
然后 在 调用 bind 前 初始 化 套 接 字 地 址 结构 。unlink 出 错 没 有 关系 。 


注意 ， 这 里 的 bind 调 用 不 同 于 图 15-2 中 的 调用 。 这 里 我 们 指定 套 接 
字 地 址 结构 的 大 小 (bind 的 第 三 个 参数 ) 是 sockaddr_un 结 构 总 的 大 小 ， 
而 不 是 只 把 路 径 名 占用 的 字 节 数 计 算 在 内 。 这 两 个 长 度 都 是 有 效 的 ， 
为 路 径 名 必须 以 空 字符 结尾 。 


这 个 main 函 数 的 其 余部 分 和 图 5-12 中 的 相同 ， 而 且 使 用 同样 的 
str echorAZX (图 5-3) 。 


图 15-4 是 使 用 Unix 域 字 节 流 协 议 的 回 射 客户 程 序 ， 改 写 目 图 5-4。 


uricxcomata'wixstec lil c 














1 #include "uup.h" 


2 int 
3 main(int args, cmar **arqv) 


4 | 
5 int sackfd; 
& struct sockasdr un servaddr; 

eockfd = Socket (AF LOCAL, SUCK STREAM, 0)r 
6 bzero(S&ssrvaddr, sizeotissrvacdr)) i 
9 servedcr.sun_fanily = AP LOCAL; 
10 strepy (servaddr sun parh, UNIXSTR PATH): 
11 Connect [Eocktd, (SA t) &servacdr, sizeot (servaddr)) ; 
12 str_clilstdin, socxfd); /* do ib BZzl *7 
13 exi-i0):; 
14 ] 


urdulouatarurdxster lH + 








图 15-4 ”使 用 Unix 域 字 节 流 协议 的 回 射 客户 程序 











e 含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockaddr_un 结 
构 。 


7 socket 的 第 一 个 参数 是 AF_LoCcAL。 


8~10 填写 套 接 字 地 址 结构 的 代码 与 服务 器 程序 的 相同 : 把 结构 初 
始 化 成 0， 把 family 成 员 设 置 为 AF_LOCAL， 再 把 路 径 名 复制 到 sun_path 成 


mm. 


12 str clik B SE FH IE] — FE. (图 6-13 是 我 们 开发 的 最 近 一 个 


版 本 ) 。 


15.6 ”Unix 域 数据 报 客户 /服务 器 程序 


我 们 现在 把 出 自 8.3 节 和 8.5 节 的 UDP 回 射 客户 /服务 器 程序 重新 编写 
成 使 用 Unix 域 数据 报 套 接 字 。 图 15-5 改 写 自 图 8-3 中 的 服务 器 程序 。 


vnixdormeuvnixdeservül.c 





1 &ircluie "usp. h" 

3 int 

3 main(int arqs, mr **arqv) 

4 | 

5 int sockfd; 

€ struct sockaddr un servaddr, cliaddr; 

i sockfd = Socket [AP_LOCAL, SOCK_DOGRAM, 01; 

& unlink (UNTXD3 FATH); 

9 bzero(&servaddr, sizeoftiservaddr)); 

10 servader.gun tamily = AF LOCAL; 

11 strcpyí(ssrvad3dr.sun path. UNIKDG_PATH! ; 

12 Bindisoek® a, (SA ^) &servadür, sizeof (servecior)) > 
l3 dg echo leokfd, (SA *) acliadér, sizeof(cliazdr)); 
14 } 


vn xdomewvinixdcservül.c 
图 15-5 ”使 用 Unix 域 数据 报 协 议 的 回 射 服务 器 程序 
e 两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 
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7 ”socket 的 第 一 个 参数 是 AF_LocAL， 用 于 创建 一 个 Unix 域 数据 报 套 
接 字 。 

8-12 ”unp.h 中 定义 的 UNIXDG_PATH 常 值 为 /tmp/unix.dg。 我 们 首 
先 unlink 该 路 径 名 ， 以 防 早先 菜 次 运行 本 程序 导致 该 路 径 名 已 经 存在 ， 
然后 在 调用 bind 之 前 初始 化 套 接 字 地 址 结构 。unlink 出 错 没 有 关系 。 

is ”使 用 同样 的 dg_echo 函 数 ( 图 8-4) 。 


图 15-6 是 使 用 Unix 域 数据 报 协议 的 回 射 客 户 程序 ， 改 写 目 图 8-7。 




















urixdoniaiwnixdaclil.c 





1 @incluie "ur.p. li" 

2 int 

3 nain!inz arge, char **ayew 

5 int sockfd; 

6 struct sockacdr un cliadsr, servaddr: 


SCCKEG = socket (AF LCCAL, SOUE LGHAM, 0); 


8 bzero(&clizdcr, 3s-zecf(cliaddr)); /* bind an address for us */ 

9 cliaddr.sun family = AP_LOCAL; 

10 stropyieliedéür. san path, tmepnem(WILIL]; 

ai Bindisockfd. (SA v) scliaddr, sizeof {cliaddr)!; 

12 bzero(&servacdr, sizeotiservaddr)); /* Fill in server's addrees */ 
13 servadd>.sun_family = AP LOCAL; 

14 stropy (servacdr.sun path, UNTXDG_PATHH ; 

15 dg 7liistdin, sockfd, (SA *) &ssrvaddr, sizeo* (servaddr) ! ; 

16 exltcí2):; 

17 


urixdoniairunixdicliül.c 


图 15-6 ”使 用 Unix 域 数据 报 协 议 的 回 射 客户 程序 


e 含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockaddr_un 结 
构 。 我 们 还 分 配 这 样 的 一 个 结构 以 存放 客户 的 地 址 。 


7 socket 的 第 一 个 参数 是 AF_LOCAL。 


8-31 与 UDP 客户 不 同 的 是 ， 当 使 用 Unix 域 数据 报 协 议 时 ， 我 们 必 
须 显 式 bind 一 个 路 径 名 到 我 们 的 套 接 字 ， 这 样 服务 嚣 才 会 有 能 回 射 应 答 
的 路 径 名 。 我 们 调用 tmpnam 赋 值 一 个 唯一 的 路 径 名 ， 然 后 把 它 bind 到 该 
套 接 字 。 回 顾 15.4 节 ， 我 们 知道 由 一 个 未 绑 定 的 Unix 域 数据 报 套 接 字 发 
sca d ee E 因此 要 是 我 们 省 掉 

一 步 ， 那 么 服务 器 在 dg_echo 国 数 中 的 recvfrom 调 用 将 返回 一 个 空 路 径 
A 这 个 空 路 径 名 将 导致 服务 器 在 调用 sendto 时 发 生 错 误 。 


12-44 ”用 来 往 套 接 字 地 址 结构 中 填写 服务 器 那 众 所 周知 路 径 名 的 
代码 与 先前 的 服务 器 程序 一 样 。 


15 dg_cli 函 数 与 图 8-8 所 示 的 一 样 。 
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15.7 dix Hu 


00 M EE 
想到 : 


© fork 调 用 返回 之 后 ， 子 进程 共享 父 进程 的 所 有 打开 的 描述 符 ; 
。 exec 调 用 执行 之 后 ， 所 有 描述 符 通 常 保持 打开 状态 不 变 。 


第 一 个 例子 中 ， 进 程 先 打开 一 个 描述 符 ， 再 调用 fork， 然 后 父 进程 
关闭 这 个 描述 待 ， 子 进程 则 处 理 这 个 描述 符 。 这 样 一 个 打开 的 描述 符 惑 
从 父 进程 传递 到 子 进 程 。 然 而 我 们 也 可 能 想 让 子 进程 打开 一 个 描述 符 并 
把 它 传 递 给 父 进程 。 


当前 的 Unix 系 统 提供 了 用 于 从 一 个 进程 向 任 一 其 他 进程 传递 任 一 打 
开 的 描述 符 的 方法 。 也 就 是 说 ， 这 两 个 进程 之 间 无 需 存在 亲缘 关系 ， 壁 
如 父子 进程 关系 。 这 种 技术 要 求 首先 在 这 两 个 进程 之 间 创 建 一 个 Unix 域 
套 接 字 ， 然 后 使 用 sendmsg 跨 这 个 套 接 字 发 送 一 个 特殊 消息 。 这 个 消息 
由 内 核 来 专门 处 理 ， 会 把 打开 的 描述 符 从 发 送 进程 传递 到 接收 进程 。 


TCPv3 第 18 章 详细 讲解 了 4.4BSD 内 核 在 跨 Unix 域 套 接 字 传递 打开 的 
描述 符 过 程 中 执行 的 神奇 操作 。 


SVR4 内 核 使 用 另 一 种 不 同 的 技术 来 传递 打开 的 描述 符 : APUE 的 节 
只 中 讲解 的 I_sSENDFD 和 I_RECVFD 这 两 个 ijoct1 命 令 。 然 而 进程 仍然 可 以 使 
用 Unix 域 套 接 字 访问 这 个 内 核 特 性 。 在 本 书 中 我 们 介绍 使 用 Unix 域 套 接 
字 的 描述 符 传递 方法 ， 因 为 这 是 最 便于 移植 的 编程 技术 : 这 种 技术 不 论 
是 在 源 自 Berkeley 的 内 核 上 、 还 是 在 SVR4 内 核 上 都 能 工作 ， 而 使 
用 I_sENDFD 和 I_RECVFD 这 两 个 ioctil 命 令 的 技术 只 能 用 在 SVR4 内 核 上 。 


4.4BSD 的 技术 人 允许 单个 sendmsg 调 用 传递 多 个 描述 符 ， 而 SVR4 的 技 
术 一 次 只 能 传递 单个 描述 符 。 我 们 所 有 的 例子 都 是 每 次 传递 一 个 描述 
fi. 














在 两 个 进程 之 间 传 递 描述 符 涉 及 的 步骤 如 下 。 


(1) GJ £& — E B IRL HER HY Unix tk Be Fo 


Al Hbszéfork— T T 3ERE, VET XERESTIT eA, ARE 
它 传递 回 父 进程 ， 那 么 父 进程 可 以 预 完 调用 socketpair 创 建 一 个 可 用 于 
在 父子 进程 之 间 交 换 描述 符 的 流 管 道 。 
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如 果 进 程 之 间 没 有 亲缘 关系 ， 那 么 服务 器 进程 必须 创建 一 个 Unix 域 
字 节 流 套 接 字 ，bind 一 个 路 径 名 到 该 套 接 字 ， 以 允许 客户 进程 connect 
到 该 套 接 字 。 然 后 客户 可 以 同 服 务 器 发 送 一 个 打开 某 个 描述 符 的 请 求 ， 
服务 器 再 把 该 描述 符 通 过 Unix 域 僚 接 字 传 递 回 客户 。 客 户 和 服务 器 之 间 
也 可 以 使 用 Unix 域 数据 报 套 接 字 ， 不 过 这 么 做 没什么 好 处 ， 而 且 数 据 报 
ee quit 
流 套 接 字 。 


(2) 发 送 进程 通过 调用 返回 描述 符 的 任 一 Unix 函 数 打 开 一 个 摘 述 
符 ， 这 些 函 数 的 例子 有 open、pipe、mkfifo、socket 和 accept。 可 以 在 
进程 之 间 传 递 的 描述 符 不 限 类 型 ， 这 就 是 我 们 称 这 种 技术 为 “描述 符 传 
递 ” 而 不 是 “文件 描述 符 传 递 ” 的 原因 。 


(3) 发 送 进程 创建 一 个 nsgnar 结 构 (14.5 节 ) ， 其 中 含有 待 传递 的 撞 
述 符 。POSIX 规 定 描述 符 作 为 辅助 数据 (msghdr 结 构 的 msg_control 成 
员 ， 见 14.6 节 ) 发送， 不 过 较 老 的 实现 使 用 msg_accrights 成 员 。 发 送 进 
程 调用 sendmsg 跨 来 自 步 又 1 的 Unix 域 套 接 字 发 送 该 描述 符 。 人 至 此 我 们 说 
这 个 描述 符 “ 在 飞行 中 Gn flight〉”。 即 使 及 送 进 程 在 调用 sendmsg 之 后 
但 在 接收 进程 调用 recvmsg《〈 见 下 一 步骤 ) 之 前 关闭 了 该 描述 符 ， 对 于 
沪 疏 和 它 仍然 保持 打开 状态 。 发 送 一 个 措 述 符 会 全 该 销 述 符 的 引用 计 
ZUM s 


(4) “接收 进程 调用 recvmsg 在 来 和 目 步 又 1 的 Unix 域 套 接 字 上 接收 这 个 
描述 符 。 这 个 描述 符 在 接收 进程 中 的 描述 符号 不 同 于 它 在 发 送 进程 中 的 
摘 述 符号 是 正常 的 。 传 递 一 个 描述 符 并 不 是 传递 一 个 描述 符号 ， 而 是 涉 
及 在 接收 进程 中 创建 一 个 新 的 描述 符 ， 而 这 个 新 描述 符 和 发 送 进程 中 改 
行 前 的 那个 描述 符 指 向 内 核 中 相同 的 文件 表 项 。 


客户 和 服务 器 之 间 必 须 存在 菜 种 应 用 协议 ， 以 便 描 述 符 的 接收 进程 
预先 知道 何 时 期 待 接收。 如 宋 接 收 进程 调用 recvmsg 时 没有 分 配 用 于 接 

















Westie acs AF A 2 TA}, AL Bil CUR — ^4 Fa FR FE SG IL, iX 
AS FALSE AR TA TIA TL KAA] 〈TCPv2 第 518 页 ) 。 男 外 ， 在 期 待 接 
收 描述 符 的 recvmsg 调 用 中 应 该 避免 使 用 MsG_PEEK 标 志 ， 人 否则 后 果 不 可 预 
Fl. 


描述 符 传 递 的 例子 


我 们 现在 给 出 一 个 描述 符 传 递 的 例子 。 这 是 一 个 名 为 mycat 的 程 
序 ， 它 通过 命令 行 参数 取得 一 个 路 径 名 ， 打 开 这 个 文件 ， 再 把 文件 的 内 
容 复 制 到 标准 输出 。 访 程序 调用 我 们 名 为 my_open 的 函数 ， 而 不 是 调用 
普通 的 Unix open 函数 。my_open 创 建 一 个 流 管 道 ， 并 调用 fork 和 exec 局 
动 执 行 另 一 个 程序 ， 期 待 输出 的 文件 由 这 个 程序 打开 。 访 程序 随后 必须 
把 打开 的 描述 符 通 过 流 管道 传递 回 父 进程 。 
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图 15-7 展 示 上 述 步骤 (1) : 通过 调用 socketpair 创 建 一 个 流 管道 后 
的 mycat 进 程 。 我 们 以 [6] 和 [1] 标 示 socketpair 返 回 的 两 个 描述 符 。 


mycat 


[0] [1] 




















图 15-7 使 用 socketpair 创 建 流 管道 后 的 mycat 进 程 


mycat 进 程 接着 调用 fork， 子 进程 再 调用 exec 执 行 openfile 程 序 。 父 
进程 关闭 [1] 摘 述 符 ， 子 进程 关闭 [9] 描 述 符 。“〈 流 管道 的 两 端 之 间 没 有 
差异 ， 我 们 也 可 以 让 子 进 程 关 闭 [1]， 让 父 进程 关闭 [6]。) 图 15-8 展 示 
了 如 此 处 理 后 的 结果 。 





exit 《退出 状态 ) 





avec 4 4T RM 
exec (fp 1] 4 MD 





HRT 











图 15-8 ”启动 执行 openfile 程 序 后 的 mycat 进 程 


父 进程 必须 给 openfile 程 序 传递 三 条 信息 : (1) 待 打开 文件 的 路 径 
名 ，(2) 打 开 方 式 〈 只 读 、 读 写 或 只 写 ) BME ARR (Bip 
为 [1]〉 对 应 的 描述 符号 。 我 们 选择 将 这 三 条 信息 作为 命令 行 参 数 在 调 
用 exec 时 进行 传递 。 当 然 我 们 也 可 以 通过 流 管 道 将 这 三 条 信息 作为 数据 
发 送 o openfile 程 序 在 通过 流 管道 发 送 回 打开 的 摘 述 符 后 便 终 止 o 该 程 
序 的 退出 状态 告知 父 进程 文件 能 否 打 开 ， 寿 不 能 则 同时 告知 发 生 了 什么 
类 型 的 错误 。 


通过 执行 男 一 个 程序 来 打开 文件 的 优势 在 于 ， 男 一 个 程序 可 以 是 一 
个 setuid 到 root 的 程序 ， 能 够 打开 我 们 通常 没有 打开 权限 的 文件 。 该 程序 
能 够 把 通常 的 Unix 权 限 概 念 〈 用 户 、 用 户 组 和 其 他 用 户 ) 扩展 到 它 想 要 
的 任何 形式 的 访问 检查 。 
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我 们 以 mycat 程 序 开 始 讨 论 ， 如 图 15-9 所 示 。 


umxdoniairmycal.c 





1 #include "ugp.h" 


2 int TY osen(const char *, int); 

3 int 

4 main(int argc, chair *^argv] 

5 

€ int £d, nj 

? char Puff [BUFFSIZE].; 

& 1L (mc oi-:2] 

9 err quiL('usage: mycal «pallhmaume»"): 

10 it ( (fd - my cpen(azav|[1]. © RDONLY)! « 0) 
11 srr zvo/"cannot oper te", arqv[1];; 

12 while ( (n = Raad'fd, buff, BCFFSIZZ)! > 0) 
13 Write (STOOUT_FILENO, buff, n); 

14 exi-i0); 

15 } 


unixdomain/mycal.c 


图 15-9 mycat 程 序 : 把 一 个 文件 复制 到 标准 输出 


如 果 把 其 中 的 my_open 调 用 换 成 open 调 用 ， 这 个 简单 的 程序 就 只 是 
把 一 个 文件 复制 到 标准 输出 。 


图 15-10 所 示 的 my_open 函 数 有 意 编写 成 有 着 和 通常 的 Unix open 函 数 
一 致 的 调用 接口 。 它 取 两 个 参数 ， 即 一 个 路 径 名 和 一 个 打开 方式 〈 璧 如 
意 为 只 读 的 0 RDONLY) ， 打 开 访 文件， 然后 返回 一 个 描述 符 。 














unixdormairmyopen.c 





1 fincluze "unp.h* 

z int 

3 my operí(cons- char *petbnearwe, int mode) 

E 

5 int £d, cockzd[2., status; 

€ pid t  childpid: 

7 char c, arysockli[10), argmode [10] ; 

e Socketpair(AF LOCAL, SOCK STREAM, 0, sockzd!; 

9 i= ( (childpid = Pork!;) == 0) { /* child process */ 

ic Close (sockid[c) }; 

11 snnrinrf(evgsnckfà, sizeof | (argsockfd , "kd*, sockfd[i}); 
12 anorintf(ergmad=, sizeofi(argmo2e), "kd", rwxle): 

13 execl: './openfile", *copenfile', &rca scck£d, pathname, sromode, 
14 (char *) NULL): 

15 err sys! "execl srror*!; 

1€ } 

17 /* parent process - wait for the child to terminate */ 

18 Closs(&eockEd[1]) : /* close the end we don't use */ 
19 WaicpigG[-hildpid, status, C); 

20 i= (WIFEXITED (status! == f) 

21 erc_quit ("child did not terminste"); 

22 a= ( (ctatuc = WEXITSTATUS [ctatus)) == 0) 

d Head fdísockf3[U], 5c, 1, &zd!; 

24 else | 

25 errnc = status; /* set errno value from child s status */ 
2C Ed - -1; 

Z2 } 

28 Close (sockEd[0]) ; 

29 return(fz!; 

30 ] 


unxdomainmyopen.c 


图 15-10 my openiK Zt: 打开 一 个 文件 并 返回 其 描述 符 





创建 流 管 


8 调用 socketpair 创 建 一 个 流 管 道 ， 返回 两 个 描述 符 : sockfd[0] 
和 sockfd[1]。 这 是 图 15-7 所 示 的 状态 。 


fork 并 exec 


9-16 调用 fork， 子 进程 然后 关闭 流 管道 的 一 端 。 流 管道 另 一 端的 
描述 符号 格式 化 输出 到 argsockfd 字 符 数 组 ， 打 开 方 式 则 格式 化 输出 
到 argmode 字 答 数 组 。 这 里 调用 snprintf 进 行 格式 化 输出 是 因为 exec 的 参 
数 必 须 是 字符 串 。 子 进程 随后 调用 exec1 执 行 openfile 程 序 。 访 函数 不 
除非 它 发 生 错 误 。 一 旦 成 功 ，openfile 程序 的 main 函 数 就 开始 

tfe 


17-22 ” 父 进 程 关闭 流 管 着 的 为 一 并 并 调用 waitpid 等 等 子 进 程 终 


止 。 子 进程 的 终止 状态 在 status 变 量 中 返回 ， 我 们 首先 检查 该 程序 是 否 
正常 终止 〈 也 就 是 说 并 非 被 某 个 信号 终止 ) ， 知 正常 终止 则 接着 调 

用 wEXITSTATUS 宏 把 终止 状态 转换 成 退出 状态 ， 退 出 状态 的 取 值 在 0~ 
255 之 间 。 我 们 马上 会 看 到 ， 如 果 openfile 程 序 在 打开 所 请 求 文 件 时 辜 
到 一 个 错误 ， 它 将 以 相应 的 errno 值 作为 退出 状态 终止 自身 。 


接收 描述 符 


23 ”接着 给 出 的 read_fd 函 数 通 过 流 管 道 接收 描述 人 符 。 除 了 描述 符 
外 ， 我 们 还 读 取 1 个 字 节 的 数据 ， 但 不 对 数据 进行 任何 处 理 。 
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通过 流 省 道 友 送 和 接收 描述 符 时 ， 我 们 总 是 发 送 至 少 1 个 字 市 的 数 
据 ， 即 便 接收 进程 不 对 数据 做 任何 处 理 。 要 是 不 这 么 做 ， 接 收 进程 将 难 
ee fd 的 返回 值 为 0 意味 看 “没有 数据 (但 是 可 能 伴 有 一 个 描述 
Tp) ”还 是 “文件 已 结束 ”。 


图 15-11 给 出 了 它 调 用 recvmsg 在 一 个 Unix 域 套 接 字 上 
接收 数据 和 描述 符 。 该 函数 的 前 3 个 参数 和 第 四 个 参数 
是 指 问 革 个 整数 的 指针 用 以 返回 收取 的 描述 


9-26 ”本 函数 必须 处 理 两 个 版 本 的 recvmsg， 一 个 使 用 msg_control 
成 员 ， 男 一 个 使 用 msg_accrights 成 员 。 如 果 所 支持 的 是 msg_control 版 
本 ， 我 们 的 config.h 头 文件 〈 图 D-2) 就 会 定义 常量 


HAVE_MSGHDR_MSG_CONTROL 。 
确保 msg_control 正 确 对 齐 


10-13 msg_control 绥 冲 区 必须 为 cmsghdr 结 构 适 当地 对 齐 。 单 纯 分 
配 一 个 字符 数组 是 不 够 的 。 这 里 我 们 声明 了 由 一 个 cmsghdr 结 构 和 一 个 
字符 数组 构成 的 一 个 联合 ， 这 个 联合 确保 字符 数组 正确 对 齐 。 确保 对 齐 
的 男 一 个 方法 是 调用 malloc， 不 过 需要 在 函数 返回 前 释放 所 分 配 的 内 存 
| 


27-45 ”调用 recvmsg。 如 果 返 回 了 辅助 数据 ， 那 么 其 格式 应 如 图 14- 
13 所 不 。 我 们 要 验证 辅助 数据 的 长 度 、 级 别 和 类 型 ， 然后 从 中 取出 新 建 
的 描述 符 ， 并 通过 调用 者 给 出 的 recvfd 指 针 返 回 该 描述 符 。cMs6_DATA 返 





























回 一 个 unsigned charfs#t, JAAR R cemsg data ia. Kil] 
把 它 类 型 强制 转换 (casting) 成 一 个 int 指 针 ， 并 取出 它 指向 的 整数 描 
述 符 。 
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如 果 所 支持 的 是 较 老 的 msg_accrights 成 员 ， 那 么 它 的 长 度 应 该 是 
的 大 小 ， 从 中 取出 的 新 建 描述 符 同 样 通 过 调用 者 给 出 的 recvfd 
BET UR [n] 。 


1 Hinclude "unp.r" 


2 esize t 
3 read_Fdiinc fd, voit *ptr, size t abytes, int *recv:d) 


af 


struct msghér msg; 
struct iovec iov[.]: 
ssize ton; 


3 Hifdef  HAJE MSGH^R MSG CONTPR^I 


3 urion { 

15 struct cmeghdr cu: 

11 char ccntrol CMSG_SPACE(eizsot (int)!]l: 
12 ) coutrol ur: 

13 struct cmsog-zdr *cnptr; 

14 meg.rsg control =- contrel_un.cont ol; 

15 msg.msqg_con=rollen = sizeoficontrol_un.ccntrol); 
18 Helse 

17 int newfd; 

13 msg.wsg acerights - (caddy t} &newfd; 

1 meg.tSsg_accrightsien = s:zeof{int), 

22 Hendif 

21 meg.reg name - N.LL: 

22 meg.rsg namelen = f; 

23 iowta].iov hase s ptr; 

2a iov:J].iov len = nbytes; 

25 Mag msg iav m inu; 

25 meg.meg_iovlen = i; 

27 if | |n = recvmmenu[fd, sms, Of) «= 0) 

23 zeturnin); 


239 Hifdef HAVE MSGHDR MSG CONTROL 


33 if i icmptr = CN3G FIRSTHDRiameg)! !« NULL && 

31 omotr->cmeq ler == (MSG .EN(sizsof(int))) | 

32 if [cmptr-»-msg level != SCL_SOCKET) 

33 err quit("control level !- SOL SUCKEr"); 

34 if [cmptr-»-msg type !- SCM_RIGHTS) 

35 exr quit("control type != SCM RIGHIS"!; 

35 *recvfd = -((int *) CMS3 DM7B(cwp-r)!; 

37 } else 

34 *recvyfüd = <1; /* des-riptcr was not passed */ 
33 Helse 

42 if (wag-mag_accrightslen zz sizen^jint!) 

41 *reevid = nczwfd; 

42 else 

43 *reevid = -1; /* descriptcr was not passed */ 
44 Hendit 

45 returnin); 

48 } 


图 15-11 read_fdeKi A: 接收 数据 和 一 个 描述 符 
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hihí/reucl fü c 


hibvread fac 


图 15-12 给 出 了 openfile 程 序 。 它 取 三 个 必须 传 入 的 命令 行 参数 ， 并 
调用 通常 的 open 函 数 。 


unixdomain/spenfile.c 





1 @incluie *unp.h" 




















2 int 
3 maian!inz argc, char **arqw 
af 
5 iat fd; 
6 i€ (arge t= 4; 
7 err quit("cpenfile -sockfdft- <fllenane> <mcde>"); 
8 it ( (td = open(argv[2], átoilarav.3]!)) < 0) 
9 exit( (errao » 0) ? errno . 255 ); 
10 i£ (write fd(atoi[argv[1]), "". 1, Ed) < 0) 
1 exit( (errno > Q) ? errno : 255 ): 
12 exitii); 
13 | 
unixdomaimopeafile.c 
21 ng A Y VET BOHEMIA 
图 15-12 openfile 函 数 : 打开 一 个 文件 并 传递 回 其 描述 符 
Ay A 47 
命令 行 参数 


7-12 ”三 个 命令 行 参 数 中 的 两 个 早先 由 my_open 格 式 化 成 字符 串 ， 
需 使 用 atoi 把 它们 转换 回 整 数 。 


打开 文件 


9-10 ”调用 open 打 开 文 件 。 如 果 出 错 ， 与 open 错 误 对 应 的 errno 值 就 
作为 进程 退出 状态 返回 。 


传递 回 描述 符 


11-12 ”由 接着 要 讲 到 的 write_fd 函 数 把 描述 符 传 递 回 父 进 程 之 
后 ， 本 进程 立即 终止 。 本 章 早 先 说 过 ， 发 送 进程 可 以 不 等 落地 就 关闭 已 
传递 的 描述 符 (调用 exit 时 发 生 ) ， 因 为 内 核 知道 该 描述 符 在 飞行 中 ， 
从 而 为 接收 进程 保持 其 打开 状态 。 

退出 状态 必须 在 0 到 255 之 间 。 目 前 最 大 的 errno 值 约 为 150。 男 一 个 


音 误 返 送 方法 不 要 求 errno 值 必须 小 于 256， 就 是 作为 sendmsg 调 用 中 的 
普通 数据 传递 回 错误 代码 。 
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图 15-13 给 出 了 作为 本 例子 最 后 一 个 函数 的 write_fd， 它 调 
用 sendmsg 跨 一 个 Unix 域 套 接 字 发 送 一 个 描述 符 ( 以 及 可 选 的 数据 ， 但 
本 函数 没有 采用 它们 ) 。 


lib/vrite fd.c 





1 #include "uip.h" 


2 ssize t 


3 write fdiint fd, void *ptr, sizs = nbytes, int cendfd) 


4: 
5 srzruc- msghdr «sg; 
6 struct iovee ovi]: 


? #ifGef HAVE MSGHDR MSG CONTROL 


8 union { 

9 scruct cmschür cm: 

10 char ccntrol[CMSG SEACE(sizeof(int))]; 
aL |! eonzrol un; 

12 otracs emss3hór  *crpzr; 

13 msg.msg_control = control un.-oatrol; 

14 mag.mag controllen = sizenticontral_un.conrrs) }; 
15 crptr = CHSG PIRESTHDR | amsg! ; 

16 crptr-»eamsg ler = M3G_LEN (sizeof (intl); 
17 cpl ~ scams level = BOD SOCKET: 

18 cmptr-»scmsg type = SCM RISHIS; 

19 *(iin- +} CMEG DATA/cmptr)) = sendfd; 

20 #else 

21 mexj.nux] ecc ights = (caddár t; & sendfd; 
i2 msg.msg accrigttslaen - sizeof(int); 

23 $2ndiz 

24 mag .msg naue = NULL; 

25 msg.mzj nameler. = 0; 

i6 icv[U].iov bass = ptr; 

27 icvl0l.iov lcn = noyces; 

28 msg.msg iov = iov, 

29 "ms mag iow Lem = *; 

30 returnisensmeg(fd, &msg, 0!): 

3d. 1 


lib^vrits fec 


图 15-13 write_fd žit: 调用 sendmsg 传 递 一 个 描述 


与 read_fd 国 数 一 样 ， 本 函数 也 必须 既 能 处 理 辅助 数据 又 能 处 理 较 
老 的 访问 权限 。 不 论 在 哪 种 情况 下 ， 本 函数 都 先 初始 化 一 个 nsghdr 结 
构 ， 再 调用 sendmsg。 


我 们 将 在 28.7 节 展示 一 个 在 无 杀 缘 关系 进程 之 间 传 递 描 述 符 的 例 
于， 再 在 30, 9 节 中 展示 一 个 在 有 亲缘 关系 进程 之 间 传 递 描述 符 的 例子 。 
它们 将 使 用 上 述 read_fd 和 write_fd 函 数 。 
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15.8 PWC AIA IT] fub 


图 14-13 展 示 的 可 通过 Unix 域 套 接 字 作 为 辅助 数据 传递 的 另 一 种 数 
据 是 用 户 赁 证 Cuser credential) 。 作 为 辅助 数据 的 凭证 其 具体 封装 方式 
和 发 送 方式 往往 特定 于 操作 系统 。 本 节 只 讨论 FreeBSD 的 凭证 传递 ， 不 
过 其 他 Unix 变 体 也 是 类 似 的 (难点 通常 在 确定 使 用 哪个 结构 上 〉 。 赁 证 
传递 仍然 是 一 个 尚未 普及 且 无 统一 规范 的 特性 ， 然 而 因为 它 是 对 Unix 域 
协议 的 一 个 尽管 简单 却 也 重要 的 补充 ， 所 以 我 们 还 是 要 介绍 一 下 它 。 当 
客户 和 服务 器 进行 通信 时 ， 服 务 器 通常 需 以 一 定 手段 获悉 客户 的 身份 ， 
以 便 验证 客户 是 否 有 权限 请 求 相应 服务 。 


FreeBSD 使 用 在 头 文件 <sys/socket.h> 中 定义 的 cmsgcred 结 构 传递 
AE WE. 


struct cmsgcred { 








pid t cmcred pid; /* PID of sending process */ 

uid t cmcred uid; /* real UID of sending process */ 

uid t cmcred euid; /* effective UID of sending process */ 
gid t cmcred gid; /* read GID of sending process */ 
short cmcred ngroups; /* number of groups */ 

gid t cmcred groups [CMGROUP. MAX]; /* groups */ 


CMGROUP_MAX 常 值 通 常 为 16。cmcred_ngroups 总 是 至 少 为 1， 而 
有 昌 cmcred_groups 数 组 的 第 一 个 元 素 是 有 效 组 ID。 


凭证 信息 总 是 可 以 通过 Unix 域 套 接 字 在 两 个 进程 间 传 递 ， 然 而 发 送 
进程 发 送 它 们 时 往往 需 做 特殊 的 封装 处 理 ， 接 收 进程 接收 它们 时 也 往往 
需 做 特殊 的 接受 处 理 〈 例 如 打开 套 接 字 选项 ) 。 在 FreeBSD 系 统 中 ， 接 
收 进程 只 需 在 调用 recvmsg 同 时 提供 一 个 足以 存放 凭证 的 辅助 数据 空间 
即 可 ， 如 图 15-14 给 出 的 例子 所 示 。 而 发 送 进程 调用 sendmsg 发 送 数据 时 
必须 作为 辅助 数据 包含 一 个 cmsgcred 结 构 才 会 随 数据 传递 任 证 。 需 注意 
的 是 ， 尽 管 FreeBSD 要 求 任 证 发 送 进程 必须 提供 其 结构 ， 其 内 容 却 是 由 
内 核 填 写 的 ， 发 送 进程 无 法 伪造 。 这 么 做 使 得 通过 Unix 域 套 接 字 传递 凭 
证 成 为 服务 器 验证 客户 身份 的 可 靠 手 段 。 


例子 


TEA EEE — IT. Sed E— 5m Unix E T Ud o as 
程序 改 为 服务 器 请 求 客 户 的 用 户 凭 证。 图 15-14 给 出 了 名 为 read_cred 的 
新 函数 ， 它 和 read 类 似 ， 不 过 同时 返回 一 个 含有 发 送 进程 的 凭证 的 
cmsgcred 结 构 。 


uibxdomala'ceadcreed.c 





1 include “"unp.h" 


2 define CONTROL LEN (sizeof (struct -meg'dr) + sizeof(struct omsycred)}) 


3 ssize t 

4 read_cred(int fd, void “ptr, size t nbytes, struct crsqered *cnsacredptr) 
5 1 

5 s-rac- msghdr msg; 

7 ezruc- iovec :ovl-]; 

8 caar control [CONTROL_LEN] , 

9 in rt 

10 msg.msg name - NULL; 

11 mzq.moq nameler = 0; 

12 icvi0l.iov bass = ptr; 

13 icv[ü] ic len = nuy-es:; 

14 mag.msq iov - iov; 

15 maq.moq iovlcn = i; 

16 mag .msg control - control; 

17 msg.mej controllen = sizeoticontr-l); 

19 m3g.msq flage = J; 

19 if ( (n = reevnsgifd, amsg, 9)) < 0) 

20 return ín); 

21 crsgcredpt r=sciceed groups = 0; /* indicates ro credentiels returned ¢/ 
az if (cmsgeredptr sù msg.msg coctrollen > a! | 

23 ctruct cvocqhdr  *cemptr = (czruct cmechdr *) control; 
24 i= fomptr-vemsg_len ~ CONTROL LEN! 

25 err quit("contrpD] length = kd", rmptr-»cmsg len): 
36 i= [cmctr-»cmeq level i= SOL SOCKET) 

27 crr quit ("control lcvc. != SOL_SOCKET") ; 

28 i= fometr-scmsg_type !- SCM_CREDS’ 

23 err quit ("control typa != SCN CRBEDS*); 

40 memcpy (cTegcredptr, CMSs -ATA(cmptr!, Ei2zeof(scruct cmecscred)}; 
31 

32 returnin); 

33 
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图 15-14 read credP& Zi: 读 取 并 返回 发 送 者 的 凭证 


3~4 该 函数 的 前 3 个 参数 和 read 函 数 一 样 ， 第 四 个 参数 是 指向 革 
个 cmsgcred 结 构 的 一 个 指针 ， 用 以 返回 客户 的 凭证 。 返 回 的 辅助 数据 格 
式 如 图 14-13 所 示 ， 不 过 其 中 的 fcred{} 应 该 改 为 cmsgcred{}。 


22-31 如 果 有 和 凭证 返回 ， 我 们 就 验证 辅助 数据 的 长 度 、 级 别 和 类 
型 ， 然 后 从 中 取出 凭证 复制 到 由 调用 者 指定 的 cmsgcred 结 构 。 如 果 无 返 
回 凭 证， 我 们 束 将 这 个 结构 置 0。 既 然 用 户 组 的 数目 





(cmcred_ngroups) 总 是 至 少 为 1， 其 值 为 0 就 是 同调 用 者 指出 内 核 未 返 
回 赁 证 。 


图 15-3 给 出 的 回 射 服务 器 程序 main 函 数 没 有 改动 。 图 15-15 是 新 版 的 
str_echo 鸭 数 ， 它 改写 自 图 5-3。 该 函数 由 子 进 程 在 父 进 程 接 受 了 一 个 新 
的 客户 连接 并 调用 fork 之 后 调用 。 


nitixaoman urechn.c 





1 inclue "unp.lh* 
2 ssize t read crediint, void *, size t, struct -msgcred *|; 


3 void 
4 str ecbo(:nt socikfd) 
5 


É ssize t n 

7 int i: 

6 char zuf 'MAXLINE]: 

E] struct cmsqgcred cred; 

10 again: 

11 while ( (n = read cred(sockfd, buE, MAXLINE, &cred}) > €! | 
12 if /cred.cmcred nzrcups == 0) | 

13 crinrf(" (no credentials rerurned)*r"); 

14 } elce | 

15 zrintf("PID of sender - td\n", crei.cncred pid!; 

16 printf ("real user T5 = Wd", cred.crcred uid); 

1 rinrf ("real group ID = tàMn', cret.cncred gid); 

16 zrintf("cffcct-:vc user ID = *dMn", cred.cmered cuid}; 
19 rrintf("5d groups:", cred.cmcred ngrcups - 1'; 

20 for (i121; i < crei omare ngroaps ; o+) 

21 printf (" $d", cred.comcred groupe [il]; 

22 zrincf ("in"): 

23 } 

24 Writen(sockfd, wmf, ni; 

25 } 


26 i* (n e C Sr erri == FINTR) 
i goto again; 
else if (n « 0) 
29 err sysi"str ecko: read error"); 
n 


T 
-— 


Momma rec dnx 








图 15-15 str echofÉ Zi: 请 求 客户 的 凭证 
11-23 ”如 果 有 和 凭证 返回 就 显示 它们 。 


24-25 ”循环 的 其 余部 分 没有 改动 。 这 段 代码 把 来 目 客 户 的 数据 读 
入 缓冲 区 ， 再 把 缓冲 区 中 的 数据 写 出 给 客户 。 


图 15-4 中 的 客户 程序 只 有 稍 许 改 动 ， 即 在 调用 sendmsg 时 传 入 一 个 空 
的 cmsgcred 结 构 〈 访 结构 由 内 核 目 动 填写 ) 。 








在 运行 客户 之 前 ， 我 们 可 以 使 用 id 命令 查看 个 人 的 当前 攒 证 。 


freebsd % id 
uid-1007(andy) gid-1007(andy) groups-1007(andy), O(wheel) 





企 一 个 窗口 中 运行 服务 器 ， 再 在 另 一 个 窗口 中 运行 客户 一 次 ， 服 务 
d^ EDU Pide 


freebsd % unixstrserv02 
PID of sender = 26881 
real user ID = 1007 

real group ID = 1007 
effective user ID = 1007 
2 groups: 1007 0 


这 些 信息 一 直到 客户 同 服务 器 及 出 数据 后 才 输 出 。 它 们 与 id 命 令 给 
出 的 结果 相 匹 配 。 
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15.9 ”小 结 


Unix 域 套 接 字 是 客户 和 服务 器 在 同一 个 主机 上 的 IPC 方 法 之 一 。 5 
IPC 其 他 方法 相 比 ，Unix 域 套 接 字 的 优势 体现 在 其 API 几 平等 同 于 网 络 客 
户 /服务 器 使 用 的 API。 与 客户 和 服务 器 在 同一 个 主机 上 的 TCP 相 比 ， 
Unix 域 字 节 流 套 接 字 的 优势 体现 在 性 能 的 增长 上 。 


我 们 把 自己 的 TCP 和 UDP 回 射 客 户 和 服务 器 程序 修改 成 了 使 用 Unix 
域 协 议 的 版 本 ， 其 中 唯一 的 主要 差别 是 : 必须 bind 一 个 路 径 名 到 UDP 和 套 
i 
J 目的 地 。 


同一 个 主机 上 客户 和 服务 器 之 间 的 描述 符 传递 是 一 个 非常 有 用 的 技 
术 ， 它 通过 Unix 域 套 接 字 发 生 。 我 们 在 15.7 节 中 展示 了 从 一 个 子 进程 到 
其 父 进程 传递 回 一 个 描述 符 的 一 个 例子 。 我 们 还 将 在 28.7 节 中 展示 客户 
和 服务 器 没有 亲缘 关系 的 一 个 例子 ， 在 30.9 节 中 展示 从 一 个 父 进程 到 一 
个 子 进 程 传 递 描述 符 的 例子 。 

















习题 


15.1 如 果 一 个 Unix 域 服务 器 在 调用 bind 之 后 调用 unlink， 将 会 发 
生 什 么 ? 


15.2 ”如 果 一 个 Unix 域 服务 器 在 终止 时 不 unlink 它 的 众所周知 路 径 
名 ， 并 且 有 一 个 客户 试图 在 该 服务 器 终止 后 某 个 时 刻 connect 该 服务 
器 ， 将 会 发 生 什 么 ? 


15.3 如 下 修改 图 11-11: 显示 对 端的 协议 地 址 后 调用 sleep (5) ， 
并 在 每 次 read 返 回 一 个 正 值 时 显示 由 read 返 回 的 字 节 数 。 


如 下 修改 图 11-14: 对 于 即将 发 送 给 客户 的 结果 中 的 每 个 字 节 分 别 
调用 write。 “我们 已 在 习题 1.5 的 解答 中 讨论 过 类 似 的 修改 。) 在 同一 
个 主机 上 使 用 TCP 运 行 这 两 个 客户 和 服务 器 程序 。 客 户 读 入 了 多 少 个 字 


节 ? 








在 同一 个 主机 上 使 用 Unix 域 套 接 字 运行 这 两 个 客户 和 服务 器 程序 。 
结果 是 否 有 所 变化 ? 


然后 把 服务 器 程序 中 的 write 调用 改 为 send 调 用 ， 并 指定 MsG_EOR 标 
志 。 完成 本 习题 需要 一 个 源 自 Berkeley 的 实现 。) 在 同一 个 主机 上 使 
人 结果 是 否 有 所 
变化 ? 
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15.4 编写 一 个 程序 以 确定 图 4-10 中 展示 的 值 。 方 法 之 一 是 先 创建 
一 个 流 管 道 ， 再 fork 成 一 个 父 进 程 和 一 个 子 进 程 。 父 进程 进入 一 个 for 
循环 ， 把 backlog 从 0 递增 到 14。 每 次 循环 回来 后 ， 父 进程 首先 把 backlog 
的 值 写 入 流 管 道 。 子 进程 读 入 该 值 ， 创 建 一 个 套 接 字 ， 捆 绑 环 回 地 址 到 
其 上 ， 指 定 backlog 为 所 读 入 的 值 调 用 listen， 从 而 得 到 一 个 监听 套 接 
字 。 子 进程 接着 通过 写 流 管道 告知 父 进 程 目 己 已 准备 好 。 父 进程 然后 党 
试 建立 尽 可 能 多 的 连接 ， 以 检测 何 时 因 connect 阻 塞 而 击 中 backlog 极 
限 。 父 进程 可 以 设置 一 个 2 秒 钟 的 alarm 报 警 时 钟 以 检测 阻塞 的 
connect. 子 进 程 从 不 调用 accept， 这 样 内 核 将 排队 来 自 父 进程 的 所 有 


连接 。 当 父 进程 alarm 时 钟 报警 时 ， 它 可 以 从 循环 计数 器 获悉 击 中 
backlog 极 限 的 是 哪个 connect。 父 进程 随后 关闭 所 有 用 于 连接 尝试 的 套 
接 字 ， 并 把 backlog 的 下 一 个 值 写 入 流 管 道 供 子 进程 读 取 。 子 进程 读 入 这 
个 新 值 后 ， 关 闭 原 来 的 监听 套 接 字 ， 创 建 一 个 新 的 监听 套 接 字 ， 重 新 开 
始 上 述 过 程 。 


15.5 “验证 删 掉 图 15-6 中 的 bind 调 用 将 导致 服务 器 发 生 错误 。 
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中 此 处 为 APUE 第 1 版 英文 原版 书 的 节 号 ，APUE 第 2 版 为 节 。 一 一 编者 
注 


16%  dEBSH3EXXUO 


16.1 概述 


EER MY ERUAKRAS IE DH SEIT]. AMARE R t PAS Bé SL BI Se X 
HERTHA, SRE ORE AER, SEE AI ERE ee HY EBLE 
的 套 接 字 调 用 可 分 为 以 下 四 类 。 


(1) ”输入 操作 ， 包 括 read、readv、recv、recvfrom 和 recvmsg 共 5 个 
函数 。 如 果 某 个 进程 对 一 个 阻塞 的 TCP 套 接 字 (默认 设置 ) 调用 这 些 输 
入 函数 之 一 ， 而 且 该 套 接 字 的 接收 缓冲 区 中 没有 数据 可 读 ， 该 进程 将 被 
投入 睡眠 ， 直 到 有 一 些 数据 到 达 。 既 然 TCP 是 字 节 流 协 议 ， 该 进程 的 唤 
醒 就 是 只 要 有 一 些 数 据 到 达 ， 这 些 数据 既 可 能 是 单个 字 节 ， 也 可 以 是 一 
个 完整 的 TCP 分 节 中 的 数据 。 如 果 想 等 到 某 个 固定 数目 的 数据 可 读 为 
止 ， 那 么 可 以 调用 我 们 的 readn 函 数 〈 图 3-15) ， 或 者 指定 MsG_WAITALL 
标志 《图 14-6) 。 


既然 UDP 征 数 据 报 协议 ， 如 果 一 个 阻塞 的 UDP 和 套 接 字 的 接收 缓冲 区 
对 它 调用 输入 函数 的 进程 将 被 投入 睡眠， 直到 有 UDP 数 据 报到 








对 于 非 阻 塞 的 套 接 字 ， 如 果 输 入 操作 不 能 被 满足 (对 于 TCP 套 接 字 
即 至 少 有 一 个 字 节 的 数据 可 读 ， 对 于 UDP 套 接 字 即 有 一 个 完整 的 数据 报 
可 读 ) ， 相 应 调用 将 立即 返回 一 个 EwouLDBLOocK 错 误 。 





(2) 输出 操作 ， 包 括 write、writev、send、sendto 和 sendmsg 共 5 个 
函数 。 对 于 一 个 TCP 套 接 字 我 们 已 在 2.11 节 说 过 ， 内 核 将 从 应 用 进程 的 
绥 冲 区 到 该 套 接 字 的 发 送 缓冲 区 复制 数据 。 对 于 阻塞 的 套 接 字 ， 如 有 果 其 
发 送 缓冲 区 中 没有 空间 ， 进 程 将 被 投入 睡 虑 ， 直 到 有 空间 为 止 。 
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对 于 一 个 非 阻 塞 的 TCP 套 接 字 ， 如 果 其 发 送 缓冲 区 中 根本 没有 衬 


间 ， 输 出 函数 调用 将 立即 返回 一 个 EwouLDBLocK 错 误 。 如 果 其 发 送 缓冲 
区 中 有 一 些 空 间 ， 返 回 值 将 是 内 核能 够 复制 到 该 缓冲 区 中 的 字 节 数 。 这 





个 字 节 数 也 称 为 不 足 计 数 (short count) 。 


我 们 还 在 2.11 节 说 过 ，UDP 套 接 字 不 存在 真正 的 发 送 缓冲 区 。 内 核 
只 是 复制 应 用 进程 数据 并 把 它 沿 协议 栈 向 下 传送 ， 渐 次 冠 以 UDP 首部 和 
IP 首 部。 因此 对 一 个 阻塞 的 UDP 套 接 字 (默认 设 置 ) ， 输 出 函数 调用 将 
不 会 因 与 TCP 套 接 字 一 样 的 原因 而 阻塞 ， 不 过 有 可 能 会 因 其 他 的 原因 而 
阻塞 。 


(3 ”接受 外 来 连接 ， 即 accept 函 数 。 如 果 对 一 个 阻 紧 的 套 接 字 调 
用 accept 函 数 ， 并 且 尚 无 新 的 连接 到 达 ， 调 用 进程 将 个 投入 睡眠 。 


如 果 对 一 个 非 阻 塞 的 套 接 字 调用 accept 函 数 ， 并 且 尚 无 新 的 连接 到 


达 ，accept 调 用 将 立即 返回 一 个 EwouLDBLocK 错 误 。 


(4) 发 起 外 出 连接 ， 即 用 于 TCP 的 connect 函 数 。 《回顾 一 下 ， 我 们 
知道 connect 同 样 可 用 于 UDP， 不 过 它 不 能 使 一 个 “真正 ”的 连接 建立 起 
来 ， 它 只 是 使 内 核 保存 对 端的 IP 地 址 和 端口 号 。) 我 们 已 在 2.6 节 展示 
过 ，TCP 连 接 的 建立 涉及 一 个 三 路 握手 过 程 ， 而 且 connect 函 数 一 直 要 等 
到 客户 收 到 对 于 自己 的 SYN 的 ACK 为 止 才 返回 。 这 意味 着 TCP 的 每 
个 connect 总 会 阻塞 其 调用 进程 至 少 一 个 到 服务 器 的 RTT 时 间 。 


如 果 对 一 个 非 阻塞 的 TCP 套 接 字 调用 connect， 并 且 连 接 不 能 立即 建 
立 ， 那 么 连接 的 建立 能 照样 发 起 〈 辟 如 送出 TCP 三 路 握手 的 第 一 个 分 
ZH) ， 不 过 会 返回 一 个 EINPROGRESS 错 误 。 注 意 这 个 错误 不 同 于 上 述 三 
个 情形 中 返回 的 错误 。 男 请 注意 有 些 连接 可 以 立即 建立 ， 通 第 发 生 在 服 
务 器 和 客户 处 于 同一 个 主机 的 情况 下 。 因 此 即使 对 于 一 个 非 阻 塞 的 
connect， 我 们 也 得 预备 connect 成 功 返回 的 情况 发 生 。 我 们 将 在 16.3 节 
展示 一 个 非 阻塞 connect 的 例子 。 


按照 传统 ， 对 于 不 能 被 满足 的 非 阻 塞 式 IO 操作 ，System VÆRE 
EAGAIN 错 误 ， 而 源 自 Berkeley 的 实现 则 返回 EwouLpBLOCK 错 误 。 顾 及 历史 
原因 ，POSIX 规 范 声 称 这 种 情况 下 这 两 个 错误 码 都 可 以 返回 。 辛 运 的 
是 ， 大 多 数 当前 的 系统 把 这 两 个 错误 码 定 义 成 相同 的 值 〈 检 查 一 下 你 自 
己 的 系统 中 的 <sysyerrno.h> 头 文件 ) ， 因 此 具体 使 用 哪 一 个 并 无 多 大 
关系 。 我 们 在 本 书 中 使 用 EwouLDBLOCK。 


6.2 节 汇总 了 LO 的 各 种 可 用 模型 ， 并 比较 了 非 阻塞 式 HO 和 其 他 模 
型 。 在 本 章 中 ， 我 们 将 提供 上 述 所 有 四 类 操作 的 非 阻 塞 式 IO 例子 ， 并 








开发 一 个 类 似 Web 客 户 程序 的 新 型 客户 程序 ， 它 使 用 非 阻塞 connect 同 
时 发 起 多 个 TCP 连 接 。 
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16.2 ” 非 阻 堵 谈 和 写 : str clair dJ 
版 ) 


我 们 再 次 回 到 在 5.5 节 和 6.4 节 讨论 过 的 str_cli 函 数 。6.4 节 讲 过 的 使 
用 了 select 的 版 本 仍 使 用 阻塞 式 UHO。 举 例 来 说 ， 如 果 在 标准 输入 有 一 
行文 本 可 读 ， 我 们 就 调用 read 读 入 它 ， 再 调用 writen 把 它 发 送 给 服务 
器 。 然 而 如 果 套 接 字 发 送 缓冲 区 已 满 ，writen 调 用 将 会 阻塞 。 在 进程 阻 
塞 于 writen 调 用 期 间 ， 可 能 有 来 上 自 套 接 字 接收 缓冲 区 的 数据 可 供 读 取 。 
类 似 地 ， 如 果 从 套 接 字 中 有 一 行 输入 文本 可 读 ， 那 么 一 旦 标准 输出 比 网 
络 还 要 慢 ， 进 程 照 样 可 能 阻塞 于 后 续 的 write 调用 。 本 节 的 目标 是 开发 
这 个 函数 的 一 个 使 用 非 阻塞 式 JO 的 版 本 。 这 样 可 以 防止 进程 在 可 做 任 
何 有 效 工 作 期 间 发 生 阻 塞 。 


不 幸 的 是 ， 非 阻塞 式 1/O 的 加 入 让 本 函数 的 缓冲 区 管理 显著 地 复杂 
化 了 ， 因 此 我 们 将 分 片 介绍 这 个 函数 。 我 们 已 在 第 6 章 和 第 14 章 中 讨论 
过 在 套 接 字 上 使 用 标准 MO 的 湾 在 问题 和 困难 ， 它 们 在 非 阻 塞 式 MO 操 作 
中 显得 尤为 突出 。 本 例子 中 继续 避免 使 用 标准 IO。 


我 们 维护 着 两 个 缓冲 区 : to 容纳 从 标准 输入 到 服务 器 去 的 数据 ，fr 
容纳 自 服 务 器 到 标准 输出 来 的 数据 。 图 16-1 展 示 了 to 缓冲 区 的 组 织 和 指 
问 该 缓冲 区 中 的 指针 。 
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图 16-1 ”容纳 从 标准 输入 到 套 接 字 的 数据 的 缓冲 区 
其 中 toiptr 指 针 指 向 从 标准 输入 读 入 的 数据 可 以 存放 的 下 一 个 字 











Wo tooptr n P —1 25 SBR. A Ctoiptr-tooptr) 个 
字 节 需 写 到 套 接 字 。 可 从 标准 输入 读 入 的 字 节 数 是 Cato [MAXLINE] - 
toiptr) 。 一 旦 tooptr 移 动 到 toiptr， 这 两 个 指针 就 一 起 恢复 到 缓冲 区 


开始 处 。 
图 16-2 展 示 了 fr 绥 冲 区 相应 的 组 织 。 
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图 16-2 ”容纳 从 套 接 字 到 标准 输出 的 数据 的 缓冲 区 




















图 16-3 给 出 了 本 函数 的 第 一 部 分 。 


nonbioc&Sirclinonh.c 
1 #include "unp.h" 
2 void 
3 ecty_Cli (FILE "fp, int cockfs) 


4{ 

E! int. maxfdpi, val. stdinsof; 

6 ssize t n, nwritten; 

7 fd cct roct, woct; 

6 char tofMAXLINE], fx IMAXLINE] ; 

3 char *toiptr, *tcoptr, *friptr, *fropcr: 
10 val = Fontl{sockid, F GHIFL, U)? 

11 


Fencl (sockfd, F_SETFL, val | O_NONBLOCHI; 
12 val = PcntlíSTC7N FILENO, F_GETFL, 0): 
13 Fenzl(STUIN FILENO, F_SETFL, val | © NONBELOCK|; 
14 val = PcntlíSTCOUT PILENO, P GETFL, 0); 
15 Fcn-l(STDO'77 FILEMO, F SETFL, val | O NONRBLOCK); 
16 toiptz = tcoptr = to; /* initialize buffer poirtsrs */ 
17 f-ipt- - froptr - fr; 
18 scdineof - 0; 
19 maxfdpi = max'/max/3TDIN FILENO, STDOUT _PILENS), sockf£d! + 1; 
20 for d »3) ( 
21 FD ZaRC'/&rset): 
22 FD Z:RO&wset); 
23 if {atdinecf == 0 && -oip-r < &to[MAXLINS]| 
24 FD SET(STDIN FILENO, &rse-): /* read from stdin */ 
25 it jtriptr < &=r([MAKLINE)} 
26 FD SET(sockfd, S&rset); /* zead from socxet */ 
2" if itoi !z Loipbr! 
28 HD SEI(sOCkfd, &wset); /* Gate to write to socket */ 
29 if ‘€xroptr l= friptri 
30 PD_SET(STDOUT_PILEND, &wset!; fw data to writs to stdout */ 
31 Select(maxfdpl, &rsst, Sweet, NULL, NULL); 


putibiru A re tanti y 








图 16-3 str cliPAZXE— up: 初始 化 并 调用 select 
437 ~ 438 
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10-15 “使 用 fcnt1 把 所 用 3 个 描述 符 都 设置 为 非 阻塞 ， 包 括 连接 到 
服务 器 的 套 接 字 、 标 准 输 入 和 标准 输出 。 


初始 化 缓冲 区 指针 


16~19 初始 化 指 回 两 个 缓冲 区 的 指针 ， 并 把 最 大 的 描述 符号 加 1， 
以 用 作 select 的 第 一 个 参数 。 


主 循环 : 准备 调用 select 
20 和 本 函数 在 图 6-13 中 给 出 的 版 本 一 样 ， 这 个 版 本 的 主 循环 也 是 


一 个 select 调 用 后 跟 对 所 关注 各 个 条 件 所 进行 的 单独 测试 。 
指定 所 关注 的 描述 符 


21-30 ”两 个 描述 符 集 都 先 清 零 再 打开 最 多 2 位 。 如 末 在 标准 输入 上 
尚未 读 到 EOF， 而 且 在 to 缓冲 区 中 有 至 少 一 个 字 节 的 可 用 空间 ， 那 就 打 
开 读 描述 符 集中 对 应 标准 输入 的 位 。 如 果 在 fr 缓冲 区 中 有 至 少 一 个 字 节 
的 可 用 空间 ， 那 殴打 开 读 描述 符 集 中 对 应 套 接 字 的 位 。 如 宋 在 to 缓冲 区 
中 有 要 写 到 僚 接 字 的 数据 ， 那 残 打 开 写 描述 符 集中 对 应 僚 接 字 的 位 。 最 
后 ， 如 果 在 fr 缓冲 区 中 有 要 写 到 标准 输出 的 数据 ， 那 就 打开 写 描述 符 集 
中 对 应 标准 输出 的 位 。 


调 用 select 


31 调用 select， 等 竺 4 个 可 能 条 件 中 任何 一 个 变 为 真 。 我 们 没有 
为 本 select 调 用 设置 超时 。 


str_cli 函 数 的 下 一 部 分 在 图 16-4 中 给 出 。 本 部 分 代码 包含 select 返 
回 后 执行 的 4 个 测试 中 的 前 2 个 。 








nonblockirciinonh.c 





az if 'FD ISSET(STDIN F-LENO, &rset)) 

33 if | in = read (STCIN FILEND, toiztr, &zo[MAXLINB) - tcistr)) < 0)[ 
34 it (errno |= EWZULDBLOCK) 

35 err_sys("read error on stdin"! ; 

36 } elae i? (rss 0) ( 

3 fprintf(stderr, "te: ZDF on etdin\n", gf time!j)!: 

36 stdineof - 1; /* all done with stdin */ 

39 if {tooptr == toigtr) 

a0 Shutdown(sockfd, SHUT WR): /* sen? FIN */ 

il ) eise | 

42 Eprintiistderr, "ts: read td bytes from stdin\n". gf_time(), 
45 n); 

a4 toiptr += n; /* 8 just read */ 

45 FD SET(sockfd, $&w3ct); /* try and write to socket below */ 
46 } 

431 ) 

4E it (FD ISSET(socktd, &rsec)) [ 

49 if | in = vead{sockfd, £riptr. &E£r[MAX.INE] - zriptri) « 2) 1 
56 if {errno != FW^UIDRLOCK) 

51 err_sys("reed error on socket"); 

Su ) elee i= (r == 0) { 

5 fprintf(stderr, "bs: SOF on socketin", gZ cime([):; 

34 if fst dismef) 

55 rerum: /* normal termination */ 

Sé elce 

57 err quit("str cli: server terminated prematurely") ; 
SE ) eise | 

59 fprintfistderr, "ts: read td bytes from socketir", 

AO gf ! met, n); 

61 friptr += n; /* # just read */ 

62 FD SET(STDOUT PILENO, &wsct!; /* try and wrize below */ 
62 } 

64 } 


patibiec k^ tre dirai 


图 16-4 str_cli 函 数 第 二 部 分 : 从 标准 输入 或 套 接 字 读 入 
从 标准 输入 read 


32-33 ”如 果 标 准 输入 可 读 ， 那 就 调用 read。 指 定 的 第 三 个 参数 
是 to 绥 冲 区 中 的 可 用 空间 量 。 


ATE JE BH 2E TH VA. 


34-35 ”如 果 发 生 一 和 EwouLDBLOCK 错 误 ， 我 们 就 忽略 它 。 通 常情 况 
下 这 种 条 件 “ 不 应 该 发 生 ”， 种 条 件 意味 着 ，select 告 知 我 们 相应 
描述 符 可 读 ， 然 而 read 该 描述 符 却 返回 EwouLDpBLocK 错 误 ， 不 过 我 们 无 论 
如 何 还 是 处 理 这 种 条 件 。 





readik E| EOF 


36-40 ”如果 read 返 回 0， 那 么 标准 输入 处 理 就 此 结束 ， 我 们 还 设 
置 stdineof 标 志 。 如 果 在 to 绥 冲 区 中 不 再 有 数据 要 发 送 〈( 即 tooptr 等 于 
toiptr) ， 那 就 调用 shutdown 发 送 FIN 到 服务 器 。 如 果 在 to 绥 冲 区 中 仍 
Bonon FIN 的 发 送 就 得 推迟 到 缓冲 区 中 数据 已 写 到 套 接 字 之 





439 


我 们 输出 一 行文 本 到 标准 错误 输出 以 表示 这 个 EOF， 同 时 输出 当前 
时 间 。 本 输出 信息 的 用 途 会 在 讲解 完 本 函数 之 后 展示 。 类 似 的 fprintf 
在 本 函数 中 还 多 处 出 现 。 


read 返 回 数据 


41~45 ” 当 read 返 回 数 据 时 ， 我 们 相应 地 增加 toiptr。 我 们 还 打开 写 
摘 述 符 集 中 与 套 接 字 对 应 的 位 ， 使 得 以 后 在 本 循环 内 对 该 位 的 测试 为 
真 ， 从 而 导致 调用 write 写 到 套 接 字 。 
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这 是 编写 代码 时 需要 做 出 的 艰难 抉择 之 一 。 这 里 有 香干 个 手段 可 供 
选择 。 我 们 可 以 什么 都 不 做 ， 不 用 在 写 集合 中 设置 位 ， 这 种 情况 
下 select 将 在 下 次 被 调用 时 测试 套 接 字 的 可 写 性 。 然 而 这 个 无 为 手段 要 
求 在 已 知 有 数据 要 写 到 套 接 字 的 情况 下 ， 再 次 进入 力 一 轮 循环 以 调 
用 select。 男 一 个 手段 是 将 用 于 写 到 人 套 接 字 的 代码 复制 至 此 。 然 而 这 个 
手段 不 仅 看 似 浪费 ， 而 且 是 一 个 潜在 的 犯错 根源 (万 一 被 复制 的 代码 中 
存在 茶 个 缺陷 ， 而 我 们 只 在 其 中 某 个 位 置 修复 了 该 缺陷， 却 态 了 男 一 个 
位 置 ) 。 再 一 个 手段 是 创建 一 个 写 到 套 接 字 的 函数 ， 并 以 调用 该 函数 取 
代 代码 复制 。 然 而 这 个 手段 要 求 该 函数 共 译 str_c1li 的 3 个 局 部 变量 ， 有 
n e 860 ee ee eae lie i 
了 的 。 


从 套 接 字 read 


48-64 ”这 段 代 码 类 似 于 刚才 讲解 的 处 理 标准 输入 可 读 条 件 的 if 语 
句 。 如 果 read 返 回 EwouLDBLOCcK 错 误 ， 那 么 不 做 任何 处 理 。 如 果 遇 到 来 目 
































服务 器 的 EOF， 那 么 奇 我 们 已 经 在 标准 输入 上 过 到 EOF 则 没有 问题 ， 否 
则 来 自 服务 器 的 EOF 并 非 预 期 。 如 果 read 返 回 一 些 数据 ， 我 们 就 相应 地 
增加 friptr， 并 把 写 描述 符 集中 与 标准 输出 对 应 的 位 打开 ， 以 尝试 在 本 


函数 第 三 


部 分 中 将 这 些 数据 写 出 到 标准 输出 。 


图 16-5 给 出 了 本 函数 的 最 后 一 部 分 。 


nonbioc’Sirclinonb.c 
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if (FD_ISSET(STDOUT_FILENO, åwsel' && ( tu = TripLc - rogle) > 01) { 
i= ( inwritten = writs(ST2OUT FILENO, Érop-r, n)! < 0) { 
if (srrnc !« EWOULDEZLOCK] 
srr svs/"write error zo stdout"'; 


) else * 

fprintf/stderr, "*s: wrcte td bytes to szdcuc' n", 

at tiuc|j, nmwricten!; 
froptr +- nwritten; j^ # just writter */ 
if (froprzr zz *riptr} 
froptr = fript- = fr;  /* back to beginring of suffer */ 
) 
] 


i= (¥D_iss#v(eockfd, Sweet} && ( (n = toipzr - tooptr) > UJ) { 
i= ( [nwritten = writzí(sockfd. tooptr, n)) < Ol | 
if (erene t= EWOULD8BLO2CX) 
err sys("write error zo socket"); 


else : 
fprintf(stderr, "s: wrcte td bytes to socket\n", 
ef time(), rwricten); 
tooptr +- nwritten; /* # just vricten */ 
if (feaptr == tniptr] 1 
toiptr = toopt- = to;  /* back to beginring of buffer */ 
it ;stdineot, 
Shutdown !sockfd, SHUT WR) j* senc PIN */ 


- norbiecVtrelinaata 





图 16-5 ”str_cli 函 数 第 三 部 分 ， 写 到 标准 输出 或 套 接 字 
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write 到 标准 输出 


65~68 ”如 果 标 准 输出 可 写 而 且 要 写 的 字 节 数 大 于 0， 那 就 调 
用 write。 如 果 返 回 EwouLpBLOCK 错 误 ， 那 么 不 做 任何 处 理 。 注 意 这 种 条 
件 完 全 可 能 发 生 ， 因 为 本 函数 第 二 部 分 末尾 的 代码 在 不 清楚 write 是 否 
会 成 功 的 前 提 下 就 打开 了 写 摘 述 符 集 中 与 标准 输出 对 应 的 位 。 











write 成 功 


69-75 OI Rwe ite MIA, Fropt r iS UA E E TAE 如 果 输 出 指 
针 Cfroptr) 据 上 输入 指针 (friptr) ， 这 两 个 指针 就 同时 恢复 为 指向 
缓冲 区 开始 处 。 


write 到 套 接 字 


77-91 ”这 段 代 码 类 似 于 刚才 讲解 的 处 理 标准 输出 可 写 条 件 的 if 语 
人 句 。 唯 一 的 差别 是 当 输 出 指针 追 上 输入 指针 时 ， 不 仅 这 两 个 指针 同时 恢 
ee 而 且 如 果 已 经 在 标准 输入 上 遇 到 EOF 就 要 发 送 FIN 
到 服务 器 


3 HEEL EUB AS ERI] BITE DU HE BH SE SAUOTRIRI3 A. 16-625 tH 
SA 数 调 用 的 gf_ time PR AX. 


- lib/ef Nrte.c 
1 #inclute “urp. ti" 
2 #incluce -tima.h> 
3 cher * 
4 gf time (void) 
23 
6 struct timeval cv; 
5 static char str[30]; 
t char *ptr; 
9 i? (gettimaofdav(&zv, NULL; < 0} 
10 err_cyc|"qettimcotday error”); 
11 ptr = ctime (stv.tv sec}; 
12 strcpy(str, &ptrlllli; 
15 /* Fri Sep -3 30:09:00 1986*nX0 */ 
14 /* 0123456789012345678901234 5  */ 
15 onprintt (str + 8, sascot(ctr) 8, ,S061d", tv.tv usec); 
Lë return (str); 
17 ) 

ib Wine.c 


图 16-6 gf_time 函 数 : 返回 指向 时 间 字 符 串 的 指针 


gf_time 函 数 返回 一 个 含有 当前 时 间 的 字符 串 ， 包 括 微 秒 ， 格 式 如 
下 : 


12:34:56.123456 
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这 里 特意 采用 与 tcpdump 的 时 间 戳 输出 一 致 的 格式 。 还 要 注意 的 
是 ， str_cl1i 男 数 中 的 所 有 fprintf 调 用 都 写 到 标准 错误 输出 ， 使 得 我 们 
能 够 区 分 标准 输出 《内容 为 由 服务 器 回 射 的 文本 行 ) 和 诊断 输出 。 这 样 
一 来 我 们 可 以 同时 运行 我 们 的 TCP 回 射 客 户 程序 和 tcpdump 程 序 ， 并 把 得 
到 的 诊断 输出 和 tcpdump 输 出 放 在 一 起 按时 间 统 一 排序 。 我 们 可 以 从 中 
查看 本 客户 程序 中 到 底 发 生 了 什么 ， 并 和 相应 的 TCP 行 为 相关 联 。 


T pU 我 们 首先 在 主机 solaris 上 运行 tcpdump， 指 定 捕获 只 去 
Ls 出口 7( 回 射 服务 器 〉 的 TCP 分 节 ， 程 序 输出 存 到 在 名 为 tcpd 


solaris % tcpdump -w tcpd tcp and port 7 








然后 在 同一 个 主机 上 运行 我 们 的 TCP 客 户 程序 ， 指 定 连 接 到 主 
机 1inux 上 的 标准 echo 服 务 器 : 


solaris % tcpcli02 192.168.1.10 < 2000.1ines > out 2» diag 


标准 输入 是 文件 2000.1ines， 曾 用 于 讨论 图 6-13。 标 准 输出 发 送 到 
文件 out， 标 准 错误 输出 发 送 到 文件 diag。 程 序 执行 完毕 后 我 们 运行 以 
下 命令 : 


solaris % diff 2000.1ines out 


以 验证 回 射 文本 行 等 同 于 输入 文本 行 。 最 后 我 们 用 中 断 键 终 
止 tcpdump， 输出 tcpdump 记 录 ， 并 整 玫 合 客户 程序 的 诊断 输出 一 起 排序 。 
图 16-7 给 出 了 这 个 结果 的 第 一 部 分 。 


scolaris % tcpdump -r tcpó -N | sort diag - 
10:18:34.486392 solaris.33621 > lirux.echo: S .8£02738644:1802738644(/(2; 

win £760 «mss 1460» 
10:12:34.468273 linux.eczo > solaris.23621: 5 3212936316:3212286216(]| 

ack 1802738645 win 8760 «mss 146502 
10:18:34.488497 solaris.336271 > lirux.echo: . ack 1 win 8760 


10:18:34.491482: read 4026 bytes from stdin 

10:18:34,518663 solaris.33621 > lirux.echo: P .:1461(1460) ac« 1 win 8750 
10:18:34.519015: wrote 4096 bytes to sccket 

10:18:34.528527 linux.ecne > solaris.33621: P 1:1461(1460) ac« 1461 win 8760 
10:18:34.528785 solaris.33621 > lirux.echo: . 1461:2921(1460) ack 1451 win 87672 
10:18:34,528907 solaris, 33621 > lirux.echo: P 2921:4097(7176) ack 1451 win 876^ 
10:18:34.5283958 solaris.33621 > linux-echo: . ack 1461 win 8760 

10:18:34.536193 linux.eczc > solaris.33621: . 1461:2921(1460) ack 4097 win 876c 
10:18:34.536697 linux.eczo > solaris.33621: P 2921:3509(588} ack 1097 win £760 
10:18:34.544635: road 4056 bytes from stdin 

10:18:34.568505: read 3528 bytes from socket 

10:18 :34.560373 solaris.23621 > lirux.echo: . ack 3209 win 874 

10:18:34.582244 linux .echo > solaris 33621: P 3509:4097(588!) ack 4097 win 8760 
10:18:34.593354: wrote 3508 bytes to stdout 

19:18:34.617272 solaris.33621 > lirux.echo: P 4097:3557(1460) ack 4097 win 376¢ 
10:18:34.617610 solaris.33621 > lirux.echo: P 5557:7017(1460) ack 4097 win 8760 
10:18:34.617908 solaris.33621 > lirux.ccho: P 7017:3193(1176) ack 4097 win 87670 
10:18:34.610062: wrote 4296 bytes to sccket 

10:18:34.623310 linux.ec-a > solaris.33621: . ack 8193 win 876 

10:18:34.626125 linux echo > solaris.33621: . 4097:2557(2460) ack 8193 win 876° 
10:18:34.626335 solaris.33621 > lirux.echo: . ack 5557 win 8760 

10:18:34.626611 linux.ec-c > solaris.33621: P 5557:51425(588,; ack 8193 win E760 
10:18:34.62839€2 linux.ec-o > 6olaris.3i3621: . 6145:7605(-460) ack 8133 win 8767 
10:12:34.643524: read 4056 bytes from stdin 

10:12:34.667305: read 2636 bytes from socket 

120:15:34,670324 solaris. 33621 > lirux.echo: . ack 7505 win 8750 

10:18:34.672221 liuux.ecto > solaris.33621: P 7605:8192(588) ack 8:93 win 8760 
10:18:34.691032: wrote 2636 bytes tc stdout 


图 16-7 排序 后 的 tcpdump 输 出 和 诊断 输出 
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我 们 对 那些 包含 SYN 的 过 长 的 行进 行 了 折 行 处 理 ， 并 删 掉 了 Solaris 
人 OF) 记号 ， 该 记号 表示 设置 了 不 分 片 位 〈 用 于 路 径 MTU 
UA. 
根据 这 个 输出 ， 我 们 可 以 把 发 生 的 事情 以 时 间 线 图 描绘 出 来 。 图 
16-8 展 示 了 这 个 结果 ， 其 中 时 间 按 向 下 方向 递增 。 
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图 16-8 非 阻 塞 式 IO 例子 的 时 间 线 
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我 们 没有 在 图 中 绘 出 ACK 分 节 。 还 要 意识 到 的 是 ， 当 程序 输 
出 “wrote N bytes to stdout 〈 已 将 N 字 节 写 到 标准 输出 ) ”时 ，write 调 用 
已 经 返回 ， 并 可 能 导致 TCP 发 送 了 一 个 或 多 个 分 节 的 数据 。 


我 们 从 这 幅 时 间 线 图 可 以 看 出 客户 /服务 器 数据 交换 的 动态 性 。 使 
用 非 阻塞 式 WVO 使 程序 能 发 挥动 态 性 的 优势 ， 只 要 1/O 操 作 有 可 能 发 生 ， 
就 执行 合适 的 读 操 作 或 写 操作 。 通 过 使 用 select 函 数 ， 我 们 让 内 核 可 以 
告诉 我 们 何 时 某 个 IO 操作 可 以 发 生 。 


我 们 可 以 像 在 6.7 市 展示 的 那样 使 用 相同 的 2000 行 文件 和 相同 的 服 





务 器 主机 ( 它 与 客户 主机 间 的 RTT 为 175 ms) 测算 执行 非 阻塞 版 客户 程 
序 所 花 的 时 间 。 包 执行 非 阻塞 版 本 的 时 钟 时 间 (clock time) 796.9 s， 比 
照 6.7 节 中 的 版 本 执行 时 钟 时 间 为 12.3 s。 因 此 就 本 例子 而 言 ， 非 阻塞 式 
IO 整体 上 减少 了 往 服务 器 发 送 一 个 文件 所 花 的 时 间 。 
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16.2.1 ”str_cli 的 较 简 单 版 本 


刚才 给 出 的 str_cli 函 数 非 阻塞 版 本 比较 复杂 一 一 约 有 135 行 代码 ， 

与 之 相 比 ， 图 6-13 中 使 用 select 和 阻塞 式 1/O 的 版 本 有 着 40 行 代码 ， 而 最 
初 的 停 一 等 版 本 〈 图 5-5) 则 只 有 区 区 20 行 代码 。 我 们 知道 代码 长 度 从 
20 行 倍增 到 40 行 的 努力 是 值得 的 ， 因 为 在 批量 模式 下 执行 速度 几乎 提高 
了 30 倍 ， 而 且 在 阻塞 的 描述 符 上 使 用 select 并 不 太 复 杂 。 然 而 考虑 到 结 
果 代 码 的 复杂 性 ， 把 应 用 程序 编写 成 使 用 非 阻 塞 式 IO 的 努力 是 否 照样 
值得 呢 ? 回答 是 否定 的 。 每 当 我 们 发 现 需要 使 用 非 阻塞 式 UO 时 ， 更 简 
ee (使 用 fork) 或 多 个 线 
T (262) 。 


图 16-10 是 str_cl1i 函 数 的 另 一 个 版 本 ， 访 函数 使 用 fork 把 当前 进程 
划分 成 两 个 进程 。 

这 个 函数 一 开始 就 调用 fork 把 当前 进程 划分 成 一 个 父 进程 和 一 个 子 
进程 。 子 进程 把 来 自 服务 器 的 文本 行 复制 到 标准 输出 ， 父 进程 把 来 自 标 
准 输入 的 文本 行 复制 到 服务 器 ， 如 图 16-9 所 示 。 
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图 16-9 ”使 用 两 个 进程 的 str_clLi 函 数 





nowhiocksirelifork.c 





1 include "urnp.h" 

2 void 

3 otr Cli(FILE *tp, int cocktd! 

4 | 

5 pid t. pid; 

5 enar serndline [MOLINE], re-vlin^e[MAXLÍNE]; 

7 iE ( (pid = Fork(]) == 0) | /? chili: server -> stdout */ 
8 while (Readlineisockid, recvline, MAXLINE] > 0) 

9 Fpulsirecvl ipe sb dul i; 

19 kill (getepia(), SIGTERM) ; /* in cass parent still runing */ 
il exit (0) ; 

12 ] 

13 J* parent: stdin -> server */ 

14 waile (rgets(sendiine, MAXLINK, fp) |= NULL) 

15 Wzitcn(so2c«fd, sendline, satrlen(sendlinc) | ; 

16 Snmutdown!sockfz2, SHUT_WRI; /* BOF on stdin, send FIN */ 
17 pause): 


18 return; 


nonbioeksirelifork.c 


图 16-10 ”使 用 fork 的 str_cli 函 数 


我 们 在 图 中 明确 地 指出 所 用 TCP 连 接 是 全 双 工 的 ， 而 且 父 子 进程 共 
诗 同一 个 套 接 字 : 父 进程 往 该 套 接 字 中 写 ， 子 进程 从 该 套 接 字 中 读 。 尽 
管 套 接 字 只 有 一 个 ， 其 接收 缓冲 区 和 发 送 缓冲 区 也 分 别 只 有 一 个 ， 然 而 
c c TRES ESO Uca uot —^E SERE. Fa — “MEF XE 
"Eo 








我 们 同样 需要 考虑 进程 终止 序列 。 正 常 的 终止 序列 从 在 标准 输入 上 
遇 到 EOF 之 时 开始 发 生 。 父 进程 读 入 来 自 标准 输入 的 EOF 后 调 
用 shutdown 发 送 FIN。 ( 父 进 程 不 能 调用 close， 见 习题 15.1。) 但 当 这 
发 生 之 后 ， 子 进程 需 继 续 从 服务 器 到 标准 输出 执行 数据 复制 ， 直 到 在 套 
接 字 上 读 到 EOF。 


服务 器 进程 过 早 终止 也 有 可 能 发 生 〈5.12 节 ) 。 要 是 发 生 这 种 情 
况 ， 子 进程 将 在 套 接 字 上 读 到 EOF。 这 样 的 子 进程 必须 告知 父 进 程 停止 
从 标准 输入 到 套 接 字 复制 数据 (见习 题 16.2)〉 。 在 图 16-10 中 ， 子 进程 向 
父 进 程 及 送 一 个 sSIGTERM 信 号 ， 以 防 父 进 程 仍 在 运行 (见习 题 16.3) 。 如 
此 处 理 的 另 一 个 手段 是 子 进程 无 为 地 终止 ， 使 得 父 进 程 (如 果 仍 在 运行 
的 话 ) 捕获 一 个 SIGcHLD 信 号。 


父 进程 完成 数据 复制 后 调用 pause 让 自己 进入 睡眠 状态 ， 直 到 捕获 
一 个 信号 〈 子 进程 来 的 SIGTERM 信 号 ) ， 尽 管 它 不 主动 捕获 任何 信 














号 。SIGTERM 信 号 的 默认 行为 是 终止 进程 ， 这 对 于 本 例子 是 合适 的 。 我 
们 让 父 进程 等 待 子 进程 的 目的 在 于 精确 测量 调用 此 版 str_cli 函 数 的 TCP 
客户 程序 的 执行 时 钟 时 间 。 正 常情 况 下 子 进程 在 父 进程 之 后 结束 ， 然 而 
E CHAR 的 是 shell 内 部 命令 time， 它 要 求 父 进程 持续 到 测 
量 结束 时 刻 。 


注意 该 版 本 相 比 丁 前 面 给 出 的 非 阻塞 版 本 体现 的 简单 性 。 非 阻 玫 
版 本 同时 管理 4 个 不 同 的 W/O 流 ， 而 且 由 于 这 4 个 流 都 是 非 阻 窗 的 ， 我 们 
不 得 不 考虑 对 于 所 有 4 个 流 的 部 分 读 和 部 分 写 问 题 。 然 而 在 fork 版 本 
中 ， 每 个 进程 只 处 理 2 个 VO 流 ， 从 一 个 复制 到 为 一 个 。 这 里 不 需要 非 阻 
a 因为 如 果 从 输入 流 没 有 数据 可 读 ， 往 相应 的 输出 流 就 没有 数 
可 写 。 


16.2.2. str_cli 执 行 时 间 


我 们 已 经 给 出 str_c1li 函 数 的 4 个 不 同 版 本 。 以 下 是 调用 这 些 版 本 以 
及 一 个 使 用 线程 的 版 本 (图 26-2) 的 TCP 客 户 程序 执行 时 钟 时 间 的 汇 
总 ， 测 量 环 境 是 从 一 个 Solaris 客 户主 机 向 RTT 为 175 毫 秒 的 一 个 服务 器 主 
机 复制 2000 行 文本 。 
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354.0 秒 ， 停 等 版 本 〈 图 5-5) 。 

12.3 秒 ，select 加 阻塞 式 MO 版 本 〈 网 6-13) 。 
6.9 秒 ， 非 阻塞 式 IO 版 本 〈 图 16-3) 。 

8.74%), forkhkAS (116-10) 。 

8.5 秒 ， 线 程 化 版 本 (图 26-2) 。 


非 阻塞 版 本 几乎 比 select 加 阻塞 式 MO 版 本 快 出 一 倍 。fork 版 本 比 非 
阻塞 版 本 稍 慢 ， 然 而 考虑 到 非 阻塞 版 本 代码 相 比 fork 版 本 代码 的 复杂 
性 ， 我 们 推荐 简单 得 多 的 fork 版 本 。 


16.3  dEllH3É£connect 


当 在 一 个 非 阻塞 的 TCP 套 接 字 上 调用 connect 时 ，connect 将 立即 返 
回 一 个 EINPROGRESS 错 误 ， 不 过 已 经 发 起 的 TCP 三 路 握手 继续 进行 。 我 们 
接着 使 用 select 检 测 这 个 连接 或 成 功 或 失败 的 已 建立 条 件 。 非 阻塞 的 


connect 有 三 个 用 途 。 


(1) 我 们 可 以 把 三 路 握手 琶 加 在 其 他 处 理 上 。 完 成 一 个 connect 要 人 花 
一 个 RTT 时 间 〈2.5 节 ) ， 而 RTTI 波 动 范围 很 大 ， 从 局 域 网 上 的 几 个 坚 秘 
到 几 百 个 毫秒 甚至 是 广域网 上 的 几 秒 。 这 上段 时 间 内 也 许 有 我 们 想 要 执行 
的 其 他 处 理工 作 可 执行 。 


(2) ”我 们 可 以 使 用 这 个 技术 同时 建立 多 个 连接 。 这 个 用 途 已 随 着 
Web 浏 览 器 变 得 流行 起 来 ， 我 们 将 在 16.5 节 给 出 这 样 的 一 个 例子 。 


(3) 既然 使 用 select 等 竺 连接 的 建立 ， 我 们 可 以 给 select 指 定 一 个 时 
间 限 制 ， 使 得 我 们 能 够 缩短 connect 的 超时 。 许 多 实现 有 着 从 75 秒 钟 到 
数 分 钟 的 connect 超 时 时 间 。 应 用 程序 有 时 想 要 一 个 更 短 的 超时 时 间 ， 
实现 方法 之 一 就 是 使 用 非 阻 罕 connect。 我 们 已 在 14.2 节 讨论 过 在 套 接 字 
操作 上 设置 超时 时 间 的 其 他 方法 。 


非 阻塞 connnct 虽然 听 似 简单 ， 却 有 一 些 我 们 必须 处 理 的 细节 。 








。 尽管 套 接 字 是 非 阻塞 的 ， 如 果 连 接 到 的 服务 器 在 同一 个 主机 上 ， 那 
连接 通常 立刻 建立 。 我 们 必须 处 理 这 种 
情形 。 

源 自 Berkeley 的 实现 (和 POSIX)〉 有 关于 select 和 非 阻 寨 connect 的 
以 下 两 个 规则 : (1)〉 妆 连接 成 功 建立 时 ， 描 述 符 变 为 可 写 
(TCPV2 第 531 页 ); (2) 当 连 接 建立 遇 到 错误 时 ， 描 述 符 变 为 既 
可 读 又 可 写 CTCPv2 第 530 页 ) 。 
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关于 select 的 这 两 个 规则 出 自 6.3 节 中 关于 描述 符 就 绪 条 件 的 相关 规 
则 。 一 个 TCP 套 接 字 变 为 可 写 的 条 件 是 ， 其 发 送 缓冲 区 中 有 可 用 空间 














(对 于 连接 建立 中 的 套 接 字 而 言 本 子 条 件 总 为 真 ， 因 为 尚未 往 其 中 写 出 
任何 数据 ) ， 并 且 该 套 接 字 已 建立 连接 (本 子 条 件 为 真 发 生 在 三 路 握手 
完成 之 后 ) 。 一 个 TICP 套 接 字 上 发 生 茶 个 错误 时 ， 这 个 竺 处理 错误 总 是 
导致 该 套 接 字 变 为 既 可 读 又 可 写 。 


在 下 面 的 例子 中 我 们 将 提 及 有 关 非 阻塞 connect 的 许多 移植 性 问 
ji 











16.4 dEllHS£connect: 时 间 获 取 客 户 程 序 


图 16-11 给 出 的 connect_nonb 函 数 执行 一 个 非 阻 堵 connect。 我 们 把 
图 1-5 的 connect 调 用 替换 成 : 


libfconnect_ronb.c 
1 #include “up h" 


2 int 

3 connect ronbi(:nt sockfd, corset SA *saptr, eocklen t salen, int neac) 
4 | 

" int Mags, n, error; 

5 sockler. t len; 

7 fd cet reet, weet; 

9 struct timeval <val; 

9 flags = Pet] 'sockfd, F GETFL, 3); 

10 Fcn-l(sockf£d, Fs SETFL, flags | € NONBLOCE); 

11 error - C: 

12 if ( (r - comsectisockfd, saprr, salen)! < 0) 

3 it (srrno l= EINPROGREZSS) 

14 rczurn( 1); 

15 /* Do whatever we want while Lhe connect is Lak_ng place. */ 
16 if (n == 0) 

7 goto done; /* cormect completed immediazely */ 
18 FD ZBROl&rset): 

19 Fn SET (sack fa, &rset!; 

20 ws mx TREE , 

21 tva] Lw sel m oce 

22 rval.rv usse = 0; 

23 if ( (rn = Zelect(sockfd41, &rsecz. &wset, NULL. 

24 nsec ? 让 ve : MILL)) == 0! [ 

25 cl2sa|sockfd); /* timeout */ 

26 errno = ZTIMEDOUT; 

27 return (-1) ; 

25 ) 

ay if (¥D_lsser(ecekfd, reet) | sb isskEr(eockfd, Ewaet)) f 
30 len = sizeof (error); 

31 if jcecsockopt (sockfd, SOL_SOCKET, SC_ERROR, gerros, &ien) < 9) 
32 return (-1); /* Solaris pending erroz */ 

35 ] else 

34 err_quit ("select error: scckfd not set"); 

35 done: 

36 Ford (sockfd, F SETF5, flags); /* restore f le status flags */ 
37 if (error) ' 

38 icse [socktd); f* just in case */ 

39 errno = error; 

au return (-1) ; 

11 ] 

z return (0); 
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lib/connect nont.c 


图 16-11 ”发 起 一 个 非 阻 塞 connect 





if (connect nonb(sockfd, (SA*) &servaddr, sizeof(servaddr), ©) &lt; 0) 
err sys("connect error"); 


它 的 前 3 个 参数 和 connect 的 一 样 ， 第 四 个 参数 是 等 待 连接 完成 的 秒 
数 。 值 为 0 暗 指 不 给 select 设 置 超时 ;因此 内 核 将 使 用 通常 的 TCP 连 接 
建立 超时 。 


设置 套 接 字 为 非 阻 塞 
9-10 调用 fcnt1 把 套 接 字 设置 为 非 阻 奢 。 


11-14 ”发 起 非 阻 塞 connect。 期 望 的 错误 是 EINPROoGRESS， 表 示 连 接 
建立 已 经 启动 但 是 尚未 完成 (TCPv2 第 466 页 ) 。connect 返 回 的 任何 其 
他 错误 返回 给 本 函数 的 调用 者 。 


在 其 他 处 理 上 和 迭 合 连接 建立 
" 15 至 此 我 们 可 以 在 等 竺 连接 建立 完成 期 间 做 任何 我 们 想 做 的 事 
情 。 
检查 连接 是 否 立 即 建立 

16-17 ”如果 非 阻塞 connect 返 回 0， 那 么 连接 已 经 建立 。 我 们 已 经 
说 过 ， 当 服务 器 处 于 客户 所 在 主机 时 这 种 情况 可 能 发 生 。 
调用 select 

18~24 ”调用 select 等 待 套 接 字 变 为 可 读 或 可 写 。 我 们 清 零 rset， 打 
开 这 个 描述 符 集 中 对 应 sockfd 的 位 ， 然 后 将 rset 复 制 到 wset。 复 制 描述 
符 集 的 赋值 可 能 是 一 个 结构 赋值 ， 因 为 描述 符 集 通 第 作为 结构 表示 。 我 
们 还 初始 化 timeval 结 构 ， 然 后 调用 select。 如 果 调 用 者 把 第 四 个 参数 
指定 为 0〈 表 示 使 用 默认 超时 时 间 ) ， 那 么 我 们 必须 把 select 的 最 后 一 


个 参数 指定 为 一 个 空 指针 ， 而 不 是 一 个 值 为 0 的 timeval 结 构 〈 后 者 意味 
者 根本 不 等 待 ) 。 


处 理 超 时 

















25-28 如果 select 返 回 0， 那 么 超时 发 生 ， 我 们 于 是 返回 ETIMEOUT 
错误 给 调用 者 。 我 们 还 要 关闭 套 接 字 ， 以 防止 已 经 启动 的 三 路 握手 继续 
下 去 。 








449 
检查 可 读 或 可 写 条 件 


290-34 ”如 果 描 述 符 变 为 可 读 或 可 写 ， 我 们 就 调用 getsockopt 取 得 套 
接 字 的 待 处 理 错误 使 用 so_ERROR 套 接 字 选 项 ) 。 如 果 连 接 成 功 建立 ， 
该 值 将 为 0。 如 果 连 接 建 立 发 生 错误 ， 该 值 就 是 对 应 连接 错误 的 errno 值 
( 壁 如 ECONNREFUSED、ETIMEDOUT 等 ) 。 这 里 我 们 会 遇 到 第 一 个 移植 性 问 
题 。 如 果 发 生 错误 ，getsockopt 源 目 Berkeley 的 实现 将 在 我 们 的 变量 
error 中 返回 竺 处 理 错误 ，getsockopt 本 喘 返 回 0; 然而 Solaris 却 让 
getsockopt 返 回 -1， 并 把 errno 变 量 置 为 待 处 理 错 误 。 不 过 我 们 的 程序 能 
够 同时 处 理 这 两 种 情形 。 


RAE BEEK AS FFI E 


36-42 ”恢复 套 接 字 的 文件 状态 标志 并 返回 。 如 果 目 getsockopt 返 回 
的 error 变 量 为 非 0 值 ， 我 们 就 把 该 值 存 入 errno， 函 数 本 身 返 回 -1。 


我 们 之 前 次 过 ， 僚 接 字 的 各 种 实现 以 及 非 阻塞 connect 会 带 来 移植 
性 问题 。 首 先 ， 调 用 select 之 前 有 可 能 连接 已 经 建立 并 有 来 目 对 端的 数 
据 到 达 。 这 种 情况 下 即使 套 接 字 上 不 发 生 错误 ， 套 接 字 也 是 既 可 读 义 可 
写 ， 这 和 连接 建立 失败 情况 下 套 接 字 的 读 写 条 件 一 样 。 图 16-11 中 的 代 
码 通过 调用 getsockopt 并 检查 套 接 字 上 是 人 否 存在 竺 处 理 错误 来 处 理 这 种 


情形 。 


其 次 ， 既 然 我 们 不 能 假设 套 接 字 的 可 写 〈 而 不 可 读 ) 条 件 是 select 
返回 套 接 字 操作 成 功 条 件 的 唯一 方法 ， 下 一 个 移植 性 问题 就 是 怎样 判断 
连接 建立 是 否 成 功 。 张 贴 到 Usenet 上 的 解决 办 法 各 式 各 样 。 这 些 方法 可 
以 取代 图 16-11 中 的 getsockopt 调 用 。 


























(1) 调用 getpeername 人 代替 getsockopt。 如 果 getpeername 以 ENOTCONN 
错误 失败 返回 ， 那 么 连接 建立 已 经 失败 ， 我 们 必须 接着 以 so_ERROR 调 
用 getsockopt 取 得 套 接 字 上 竺 处 理 的 错误 。 





(2) 以 值 为 0 的 长 度 参数 调用 read。 如 果 read 失 败 ， 那 么 connect 已 经 
失败 ，read 返 回 的 errno 给 出 了 连接 失败 的 原因 。 如 果 连 接 建 立成 功 ， 
那么 read 应 该 返回 0。 


(3) 再 调用 connect 一 次 。 它 应 该 失败 ， 如 果 错 误 是 ETScoNN， 那 么 套 
接 字 已 经 连接 ， 也 就 是 说 第 一 次 连接 已 经 成 功 。 


不 广 的 是 ， 非 阻 窗 connect 是 网 络 编程 中 最 不 易 移植 的 部 分 。 使 用 
该 技术 必须 准备 应 付 移植 性 问题 ， 特 别 是 对 于 较 老 的 实现 。 避 免 移植 性 
问题 的 一 个 较 简单 技术 是 为 每 个 连接 创建 一 个 处 理 线 程 〈《 第 26 瘟 ) 。 


W P A connect 


对 于 一 个 正常 的 阻塞 式 套 接 字 ， 如 果 其 上 的 connect 调 用 在 TCP 三 路 
握手 完成 前 被 中 断 〈 璧 如 说 捕获 了 某 个 信号 ) ， 将 会 发 生 什 么 呢 ? 假设 
被 中 断 的 connect 调 用 不 由 内 核 目 动 重启 ， 那 么 它 将 返回 EINTR。 我 们 不 
能 再 次 调用 connect 等 待 未 完成 的 连接 继续 完成 。 这 样 做 将 导致 返回 
EADDRINUSE 错 误 。 
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这 种 情形 下 我 们 只 能 调用 select， 就 像 本 节 对 于 非 阻 塞 connect 所 
做 的 那样 。 连 接 建 立成 功 时 select 返 回 套 接 字 可 写 条 件 ， 连 接 建 立 失 败 
时 select 返 回 套 接 字 既 可 读 又 可 写 条 件 。 











16.5 JEMHÆ connect: Web% P JEY 


韭 阻塞 connect 的 现实 例子 出 自 Netscape 的 Web 客 户 程 序 (TCPV3 的 
13.445) 。 客 户 先 建立 一 个 与 菜 个 Web 服 务 器 的 HTTP 连 接 ， 再 获取 一 个 
主页 (homepage) 。 访 主页 往往 含有 多 个 对 于 其 他 网 页 (Web page) 的 
引用 。 客 户 可 以 使 用 非 阻塞 connect 同 时 获取 多 个 网 页 ， 以 此 取代 每 次 
只 获取 一 个 网 页 的 串 行 获取 手段 。 图 16-12 展 示 了 一 个 并 行 建立 多 个 连 
接 的 例子 。 最 左边 情形 表示 串 行 执行 所 有 3 个 连接 。 假 设 第 一 个 连接 耗 
用 10 个 时 间 单 位 ， 第 二 个 耗 用 15 个 ， 第 三 个 耗 用 4 个 ， 总 计 29 个 时 间 单 


位 。 
时 间 6 一 一 付 避 0 TT fhe fa} -- 
| 
4 
10 10 
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i-r. 73 
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SEE THIT 3 个 达 接 并 行 执行 ; 3 个 连接 并 行 执行 ; 
次 最 多 2 个 连接 次 最 多 3 个 连接 





图 16-12 ”并 行 建立 多 个 连接 


中 间 情 形 并 行 执行 2 个 连接 。 在 时 刻 0 局 动 前 2 个 连接 ， 当 其 中 之 一 
结束 时 ， 司 动 第 三 个 连接 。 总 计 耗 时 差不多 减 半 ， 从 29 变 为 15， 不 过 必 
须 意 识 到 这 是 就 理想 情况 而 言 。 如 条 并 行 执 行 的 连接 共 孚 同一 个 低速 链 
路 《譬如 说 客户 主机 通过 一 个 拨号 调制 解 调 器 链 路 接 入 因特网 ) ， 那 么 
每 个 连接 可 能 彼此 竞 用 有 限 的 资源 ， 使 得 每 个 连接 都 可 能 耗 用 更 长 的 时 





间 。 举 例 来 说 ，10 个 时 间 单 位 的 连接 可 能 变 为 15，15 个 时 间 单 位 的 可 能 
变 为 20，4 个 时 间 单 位 的 可 能 变 为 6。 即 便 如 此 ， 总 计 耗 时 将 是 21， 仍 然 
短 于 串 行 执行 的 情形 。 


最 右边 情形 并 行 执行 所 有 3 个 连接 ， 其 中 再 次 假设 这 3 个 连接 之 间 没 
有 干扰 (理想 情况 ) 。 然 而 束 我 们 选择 的 例子 时 间 而 言 ， 本 情形 的 总 计 
耗 时 和 中 间 情 形 的 一 样 ， 都 是 15 个 时 间 单 位 。 
452 
在 处 理 Web 客 户 时 ， 第 一 个 连接 独立 执行 ， 来 目 该 连接 的 数据 含有 


0 ee ey 5 en 
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时 间 0 
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图 16-13 ”完成 第 一 个 连接 后 并 行 操作 多 个 连接 

为 了 进一步 优化 连接 执行 序列 ， 客 户 可 以 在 第 一 个 连接 尚未 完成 前 
就 开始 分 析 从 中 陆续 返回 的 数据 ， 以 便 尽 早 得 悉 其 中 含有 的 引用 ， 并 尺 
快 启 动 相应 的 额外 连接 。 

既然 准备 同时 处 理 多 个 非 阻 塞 connect， 我 们 就 不 能 使 用 图 16-11 中 
的 connect_nonb 函 数 ， 因 为 它 直 到 连接 已 经 建立 才 返 回 。 我 们 必须 上 自行 
管理 这 些 〈 可 能 尚未 成 功 建立 的 ) 连接 。 

我 们 的 程序 最 多 读 20 个 来 目 Web 服 务 器 的 文件 。 最 大 并 行 连接 数 、 
服务 器 的 主机 名 以 及 要 从 服务 器 获取 的 每 个 文件 的 文件 名 都 会 作为 命令 











行 参数 指定 。 执 行 本 程序 的 一 个 典型 例子 如 下 。 


solaris % web 3 www.foobar.com / imagei.gif image2.gif \ 
image3.gif image4.gif image5.gif \ 
image6.gif image7.gif 


本 命令 行 参 数 指定 并 行 执行 最 多 3 个 连接 、 服 务 器 的 主机 名 、 主 页 
的 文件 名 〈/ 是 服务 器 的 根 网 页 ) 以 及 随后 读 入 的 7 个 文件 〈 本 例 中 都 是 
GIF) 。 这 7 个 文件 通常 在 指定 主页 中 引用 ， 现 实 的 Web 客户 将 读 取 
指定 主页 并 通过 4 分 析 HTML 获 悉 这 些 文件 名 。 我 们 不 想 因 加 入 HTML 分 
析 而 使 本 例 复杂 化 ， 于 是 直接 在 命令 行 上 指定 了 这 些 文件 名 。 


这 个 例子 比较 长 ， 我 们 把 它 分 成 奉 干 个 部 分 给 出 。 图 16-14 是 每 个 
文件 都 包括 的 web.h 头 文件 。 





iacnblock^eh, hy 





1 #incluie "ur.p. h^ 


N 


#3cEine MAXPILES 20 


3 &define SERV "an" /* port number or service name */ 

4 struct tile ( 

5 char *£ naws /* filename */ 

é CHA? ^T hast 2 /* hcs' name or TPv4á/ T?v5 mhlress */ 
r int f fa /* descriptor */ 

8 int =_flacs; /* F xxx below */ 

9 + file[MAXFILEZ!; 


10 fdetine F CONNECIING 1 /* connect() in procress */ 
11 #deEine T READINS 2 /* eccnnect() complete; now zeazing */ 
12 #define F DONE à /* all done */ 


13 #dctane CET CHD "CET Ye HITTP/1.C\r\nir\na!' 
14 /* globals */ 
15 int necnn, nfiles, nlefttoconn, nlefttoread, maxfd; 


16 fd_set rset, «set; 


17 /* function prototypes */ 

18 void home_peqe[cons= char *, const char +); 

19 void s-a-t connectí(struct file *); 

20 void write jet umd [struct file +); 

urina kel f 





图 16-14 web.h 头 文件 
453—454 


定义 file 结 构 
2~13 ”本 程序 最 多 读 MAXFILES 个 来 自 Web 服 务 右 的 文件 。 我 们 维护 











一 个 file 结 构 ， 其 中 包含 关于 每 个 文件 的 信息 : 文件 名 (复制 自命 令 行 
BRO 、 文 件 所 在 服务 器 主机 名 或 I1P 地 址 、 用 于 读 取 文 件 的 套 接 字 描述 
Re NU (连接 、 读 取 或 完成 ) 的 一 
YN ITN o 
定义 全 局 变量 和 函数 原型 

14-20 ”定义 全 局 变量 和 稍 后 讲解 的 各 个 函数 的 函数 原型 。 


图 16-15 给 出 了 程序 main 函 数 的 第 一 部 分 








nonblockweb.c 





1 #include "web. h" 
2 int 
3 main(int arqc, caar **arqv] 
4 1 
E int i, fd, n, mexncon:, flags, error; 
6 char out .MAXLINE]: 
7 fd set rs, ws; 
Li T {arcc c 5) 
9 arr quit('usage: web -f#conns> -hostnans^ «homepage* <filel> ..."); 
10 maxncorn = atoi;argvl1,.): 
11 nfiles = minfargc - 4, MAXFILES|; 
12 far (i = 0; i e nfiles: i++) { 
13 file[-].f name ~ arcv(i + 4); 
14 £izle|-].E host = arcv[2]; 
15 £:le[-].f flags = 0; 
16 ) 
17 prints ("mziccs = *dMmn", nfileci; 
18 home_pege(sravi2l, argvi3l!; 
19 FD_ZRRO (Arsel); 
20 FD ZERO (&w3et); 
21 maxfd = -1; 
22 nlefttoreac = alef-toconn = nfiles; 
23 remy = Cs 
- uvnitackáwet.i 





图 16-15 ”同时 connect 程 序 的 第 一 部 分 : 全 局 变量 和 main 函 数 开 头 部 分 





处 理 命 令 行 参数 
11-17 ”以 来 自命 令 行 参数 的 相关 信息 填写 file 结 构 数组 。 
读 取 主页 


18 ”接着 给 出 的 home_page 函 数 创建 一 个 TCP 连 接 ， 帮 出 一 个 命令 到 
服务 器 ， 然 后 读 取 主页 。 这 是 第 一 个 连接 ， 需 在 我 们 开始 并 行 建立 多 个 
连接 之 前 独自 完成 。 








455 
初始 化 全 局 变量 


19-23 ”初始 化 两 个 摘 述 符 集 ， 一 个 用 于 读 一 个 用 于 写 。maxfd 
是 select 需 要 的 最 大 描述 符 “〈 我 们 把 它 初始 化 成 -1， 因 为 描述 符 都 是 非 
负 的 ) ，nlefttoread 是 仍 待 读 取 的 文件 数 〈 当 它 到 达 0 时 程序 任务 完 
成 ) ， nconn 是 当前 打开 着 的 连 
接 数 〈 它 不 能 超过 第 一 个 命令 行 参数 ) 。 


图 16-16 给 出 了 main 函 数 一 开 始 就 调用 过 一 次 的 home_page 函 数 。 


nonbloch ome paze.c 





1 #include "web. t" 

2 void 

3 home_paqc [cons char *h2st, ccnzt char *insame) 

4 | 

5 int. fd, n; 

€ char 1ine[MAXLINE!; 

7 fd = Tcp cennect(host, SERV); /* blocking connect() */ 
8 n = snprintf (line, sizeo=(lins), GET CND, fname); 

a Writmt (fi, line, mn; 

LO for i;;) [ 

11 if | [n - Read(fd, line, MAXDINE)]; -- C) 

12 break; /* server closed connection */ 
13 printf ("read $d bytes of home page*n", n); 

14 /* dc whatever with data */ 

15 } 

16 print ("wn E-file on home page b; 

17 Close (få): 

18 ] 


nonblock home page.c 


图 16-16 home_page PK Zi 
建立 与 服务 器 的 连接 
7 我 们 的 tcp_connect 会 建立 一 个 与 服务 右 的 连接 。 
发 送 HTTP 命 令 到 服务 器 ， 读 取 应 答 


8-17 ”发 出 一 个 HTTP ”6ET 命 令 以 获取 主页 (文件 名 经 常 是 /) o 
取 应 答 〈 我 们 不 对 应 答 做 任何 操作 ) ， 然 后 关闭 连接 。 
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图 16-17 中 给 出 的 函数 start_connect 发 起 非 阳 寨 connect。 


— s - Konblock/start_connect.< 
1 #include "web.h" 


2 veið 

3 szart connect (struct file *fp-r! 

4| 

5 int f=, flags. n; 

6 struct addeinfe sai; 

? ai - Host serv(fptr-»f host, SERV, 0, SOCK STREAM); 

8 td = Socket (ai »ài family, ai sai socktype, ai-sai srotocol); 

fptr-»f fd = fd; 

10 print. T i*sl art connect lor ta, fd tn", fpt r-3^ name, fd): 
Li. /* Sat socket nonclockinc */ 
12 flags = Fontlitd, F_GETFL, 2): 
13 FPonzl(fd, P SBITL. fiaga | C_NONDLOCK); 
14 /* Tai-iate nonblecking cocnec- to the server. */ 
15 i£ ( (n = comectifd, ai-»ai addr, ai-»ai adárlen)) < 0) { 
16 it ;crrno !- BINPROCRESS) 
17 err sysi"nocblocking conrect error"). 
18 fpt r-»f flags = F_CONNECTING; 
14 BD Sex (fd, &rset); /* select for reading ard writing */ 
20 FD SET{fd, &wsct); 
2t if ‘fd > maxfd! 
22 nakfil m "d; 
23 } else if (n >- 0) /* connect is already dona */ 
24 writa gez cmdifrtr); {* writel!, tne GET command */ 
25-] 


nonbleckStert connecte 





图 16-17 ”发 起 非 阻塞 connect 
HUBER, WE AAPM 


7-13 ”调用 我 们 的 host_serv 函 数 〈 图 11-9〉 仁 找 并 转换 主机 名 和 服 
务 名 ， 它 返回 指 辣 人 菜 个 addrinfo 结 构 数 组 的 一 个 指针 。 我 们 只 使 用 其 中 
第 一 个 结构 。 创 建 一 个 TCP 套 接 字 并 把 它 设置 为 非 阻塞 。 


发 起 非 阻塞 

14-22 发 起 非 阻 塞 connect， 并 把 相应 文件 的 标志 设置 
为 F_CONNECTING。 在 读 描 述 符 集 和 写 描述 符 集 中 对 应 的 位 打开 套 接 字 描 
述 符 ， 因 为 select 将 等 待 其 中 任何 一 个 条 件 变 为 真 作为 连接 已 建立 完毕 
的 指示 。 我 们 还 根据 需 要 更 新 maxfd 的 值 。 


连接 建立 完成 情况 





23-24 ”如 果 connect 成 功 返 回 ， 那 么 连接 已 经 建立 ， 于 是 调 
用 write_get_cmd 函 数 〈 接 着 给 出 ) 发 送 一 个 命令 到 服务 器 。 
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我 们 为 connect 把 套 接 字 设置 为 非 阻塞 后 ， 不 再 把 它 重 置 为 默认 的 
阻塞 模式 。 这 么 做 没有 问题 ， 因 为 我 们 只 往 套 接 字 中 写 出 少量 的 数据 
(下 一 个 函数 中 的 GET 命 令 ， 可 以 认为 它 比 套 接 字 发 送 缓冲 区 小 得 
多 ) 。 即 使 write 因为 非 阻 蹇 标志 造成 返回 一 个 不 足 计 数 (16.1130 ， 我 
们 的 writen 函 数 (write 由 本 函数 间接 调用 ) 也 会 对 此 进行 处 理 。 套 接 
字 继 续 处 于 非 阻 塞 模式 对 于 后 续 的 read 也 没有 影响 ， 因 为 我 们 总 是 在 调 
用 select 等 待 套 接 字 变 为 可 读 后 才 调用 read。 


图 16-18 给 出 了 write_get_cmd 函 数 ， 它 发 送 一 个 HTTP GET 命令 到 服 
务 器 。 





- norblock/vrite get cmd.c 





1 &incluce "web.l* 

2 void 

3 writc cet omd;ctruct tiie *tpzr) 
4 1 

s int 


char line [NAXLINE] ; 


é 

7 n = snprintf(line, sizeof (linzi, GET COND, fptr->f name!; 
E W-iten(fptr-»f fd, line, r}; 

9 print? ("wrota gd bytes for s\n", n, *prr-»f nans); 


10 tptr->t tlags = F READING; /* clears F CONNECTING */ 

11 FD SBT(fptr -f fd, rset); /* will road server's reply */ 
12 i” {fr r-»f fd > mex Teh! 

13 raxfd = fptr->f fà; 

14 ] 


nosbiock/srire gor cnid.c 


图 16-18 ”发送 一 个 HTTP GET 命 令 到 服务 器 


7-9 构造 命令 并 写 出 到 套 接 字 。 
设置 标志 
10-13 ”设置 相应 文件 的 F_READING 标 志 ， 它 同时 清除 F_cONNECTING 


标志 【如果 设置 了 的 话 ) 。 该 标志 问 main 函 数 主 循环 指出 ， 本 搬 述 符 已 
经 准备 好 提供 输入 。 在 读 描述 符 集 中 打开 与 本 描述 符 对 应 的 位 ， 并 根据 


需要 更 新 maxfd。 


现在 回 到 图 16-19 给 出 的 main 函 数 主 循环 部 分 ， 它 紧 接 在 图 16-15 之 
后 。 这 是 程序 的 主 循环 : 只 要 还 有 文件 要 处 理 (Cnlefttoread 大 于 0) ， 
和 藻 有 可 能 并 需要 的 话 承 启动 另 一 个 连接 ， 然 后 在 所 有 活跃 的 摘 述 符 上 使 
用 select， 以 便 既 处 理 非 阻 塞 连 接 的 建立 ， 又 处 理 来 自 服 务 器 的 数据。 








aonblock/web.c 


24 waile inlefttoread » 0! [ 

25 while (noom < maxnconn && nlefrrocorn > à) ( 

26 /* find a file to read */ 

27 for (1-0 ; i < rfiiss; i++) 

28 if (file[i) -上 flags == 9) 

29 prea; 

30 i= |i -- ntiles) 

31 err_quit ("nlefttoconn - $d but nothing found", nlefttccona2); 
32 start comnect&filelzl!; 

33 nconrs + ; 

34 nlsfttcceona--; 

35 ) 

36 YS = raet; 

3T we = wzet; 

38 n = Select (maxfd+1, ars, Swa, NULL, NULL): 

39 for (i = 0; i e nfiles; iss) ( 

30 flags ~ file[1].7 flacs; 

41 i= (flagc == 0 || flace & F DONE) 

42 continue; 

43 fd = fi-e(i].f fd; 

44 if [flags & F CONNECTING wk 

45 (FD ISSET td, Gre) || Fc ISEET!td. &wo)]! ( 

46 n = sizecf(error!; 

47 if (gersecknpt (fd, SOL SOCEET, $2 FRROS, &error, &n) e n || 
ag error t= 0) { 

49 err_ret("nonblocking connect <silea For bs", 

50 f-le[i] .£_name) ; 

51 } 

52 /* connection established */ 

53 printf {"connectior established for %e\n*, File[i].f name); 
£4 FD CLR(fd, &wset!; /* ro nore writeability test */ 
Rg write ge- cemdtsf:1e[:]); /^ writet) the GET comen 4/ 
56 ) cise Lt (flaqo & E READING && PD -ESzT(fd, &ro)) { 

£7 if [ In - Read(fd, suf, sizeoii!buz)!) -- 0) ( 

tá zrinrf("end-of-file on is\n", file[:].f name!; 

Ss Close | fd); 

£0 t:lc[i].t flags = F DONZ;  /* clears F READING */ 
C1 FD CIR(fd, &rset!'; 

f2 onm -; 

B3 nlefttoread--; 

B4 ) eiae | 

ES printf ("read $d bytes from %s\r", n, fileli].f_name); 
£6 ) 

87 ) 

gg } 

69 J 

70 exitið): 

2105 
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图 16-19 main 函数 的 主 循环 
可 能 的 话 发 起 另 一 个 连接 
24-35 ”如果 没 有 到 达 最 大 并 行 连接 数 而 且 另 有 连接 需要 建立 ， 那 


就 找到 一 个 尚未 处 理 的 文件 (由 值 为 0 的 f_flags 指 示 ) ， 然 后 调 
用 start_connect 发 起 另 一 个 连接 。 活 跃 连接 数 Cnconn) 增 1， 仍 待 建立 
连接 数 (nlefttoconn) JEU. 
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select: 等 待 事件 发 生 


36-37 select 等 待 的 不 是 可 读 条 件 束 是 可 写 条 件 。 有 一 个 非 阻 
塞 connect 正 在 进展 的 描述 符 可 能 会 同时 开启 这 两 个 描述 符 集 ， 而 连接 
建立 完毕 并 正在 等 竺 来 自 服 务 器 的 数据 的 描述 符 只 会 开局 读 描 述 符 集 。 


处 理 所 有 就 绪 的 描述 符 


39~55 ” 授 查 file 结 构 数 组 中 的 每 个 元 素 ， 确 定 哪些 描述 符 需 要 处 
理 。 对 于 设置 了 F_coNNECTING 标 志 的 一 个 描述 符 ， 如 果 它 在 读 描 述 符 集 
或 写 描述 符 集 中 对 应 的 位 已 打开 ， 那 么 非 阻塞 connect 已 经 完成 。 正 如 
我 们 随 图 16-11 讲 述 的 那样 ， 我 们 调用 getsockopt 获 取 该 套 接 字 的 竺 处理 
Hux. 。 如 果 该 值 为 0， 那 么 连接 已 经 成 功 建立 。 这 种 情况 下 我 们 关闭 该 
人 然后 调用 write_get_cmd 发 送 HTTP 请 
Whe 至 | = 


检查 描述 符 是 否 有 数据 


56-67 “对 于 设置 了 F_READING 标 志 的 一 个 描述 符 ， 如 果 它 在 读 描述 
符 集 中 对 应 的 位 已 打开 ， 我 们 就 调用 read。 如 果 相 应 连接 被 对 端 关 闭 ， 
我 们 就 关闭 该 套 接 字 ， 并 设置 F_ DoNE 标 志 ， 然 后 关闭 该 描述 符 在 读 描 述 
符 集 中 对 应 的 位 ， 把 活动 连接 数 和 要 处 理 的 连接 总 数 都 减 1。 


在 本 例子 中 我 们 有 两 个 优化 措施 没有 执行 〈 以 避免 使 程序 更 为 复 
杂 ) 。 首 先 ， 当 select 告 知已 经 就 绪 的 那么 多 描述 符 被 处 理 完 之 后 ， 我 
们 可 以 终止 图 16-19 中 select 之 后 的 for 循 环 。 其 次 ， 如 果 可 能 的 话 我 们 
可 以 减 小 maxfd 的 值 ， 省 得 select 检 查 那 些 不 再 设置 的 描述 符 位 。 既 然 
本 程序 任何 时 候 执行 处 理 的 描述 符 数 都 可 能 小 于 10 而 不 是 成 干 上 万 ， 相 
比 额外 造成 的 复杂 性 ， 这 些 优化 措施 是 否 值得 添加 令 人 怀疑 。 
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同时 连接 的 性 能 


同时 建立 多 个 连接 的 性 能 收益 如 何 呢 ? 图 16-20 给 出 了 获取 某 个 
Web 服 务 器 的 主页 并 后 跟 来 自 该 服务 器 的 9 个 图 像 文件 所 需 的 时 钟 时 
间 。 到 该 服务 器 的 RTI 约 为 150 ms。 主 页 的 大 小 为 4017 字 节 ，9 个 图 像 
文件 的 平均 大 小 为 1621 字 节 。TCP 分 节 大 小 为 512 字 节 。 为 了 便于 比 
T 





时 钟 时 间 ( 秒 )， 时 钟 时 间 ( 秒 )， 


同时 连接 数 非 阻塞 


] 
2 
3 
4 
5 
6 
7 
8 
9 





图 16-20 各 个 同时 连接 数 的 时 钟 时 间 


主要 的 性 能 改善 是 在 同时 连接 数 为 3 的 时 候 取得 的 《时钟 时 间 减 
EO ， 同 时 连接 数 为 4 或 更 多 的 时 候 性 能 增长 要 少 得 多 。 


我 们 提供 这 个 使 用 同时 连接 的 例子 是 因为 它 是 一 个 使 用 非 阻 守 式 
IO 的 好 例子 ， 而 且 它 对 性 能 的 影响 可 以 测量 出 来 。 这 也 是 一 个 流行 的 
Web 应 用 程序 即 Netscape 浏 览 右 使 用 的 特性 之 一 。 然 而 如 果 网 络 中 存在 
拥塞 ， 这 个 技术 就 会 有 缺陷 。TCPv1 的 第 21 章 介绍 了 TCP 的 慢 启 动 和 拥 
塞 避 免 算法 的 细节 。 当 从 一 个 客户 到 一 个 服务 器 建立 多 个 连接 时 ， 这 些 
连接 之 间 在 TCP 层 并 无 通信 。 也 就 是 说 ， 即 使 其 中 一 个 连接 过 到 分 组 丢 
失 〔 隐 式 指示 网 络 已 经 拥塞 ) ，IP 地 址 对 相同 的 其 他 连接 也 不 会 得 到 通 
知 ， 这 种 情况 下 这 些 连接 很 可 能 马上 遇 到 分 组 丢失 ， 除 非 它 们 事先 得 到 
通知 而 慢 下 来 。 这 些 额 外 的 连接 是 在 往 已 经 拥 窗 的 网 络 中 发 送 更 多 的 分 
组 。 这 个 技术 还 会 增加 服务 器 主机 的 负 葵 。 

















16.6 dElH3Éaccept 


我 们 在 第 6 章 中 陈述 过 ， 当 有 一 个 已 完成 的 连接 准备 好 被 accept 
时 ，select 将 作为 可 读 描 述 符 返 回 该 连接 的 监听 套 接 字 。 因 此 ， 如 有 果 我 
们 使 用 select 在 某 个 监听 套 接 字 上 等 待 一 个 外 来 连接 ， 那 融 没 有 必要 把 
该 监听 套 接 字 设 置 为 非 阻 竖 ， 这 是 因为 如 果 select 告 诉 我 们 该 套 接 字 上 
己 有 连接 就 络 ， 那 么 随后 的 accept 调 用 不 应 该 阻 豆 。 
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1996] 。 为 了 碍 看 这 个 问题 ， 我 们 首先 把 图 5-4 中 的 TCP 回 射 客 户 程序 改 
写成 建立 连接 后 发 送 一 个 RST 到 服务 上 器。 图 16-21 给 出 了 这 个 新 版 本 。 


nanblocktepch03.c 








t $include *ur.p. hi" 


2 int 
3 main!inz argc, char **argy) 


| 
5 int sockfd; 
6 struc- linger ling; 
struct seckaddr in servaddr; 
8 iE (argc != 2; 
9 e-r quit("usage: tcpcli «IPaddress»') 
10 scckfü = Socket(BF INET, SOCK STREAM, 0); 
14 b2ero(kservacdr. sizeof (seryvaddr) ) ; 
12 Scorvaddr.cin t2mi.y » AP INET; 
13 servaddr.sin port ~ atonsiSERV FORT), 
14 Taer ptan(RF TNET, arg" (1]. &servaddr.sin add"); 
15 Comnect (sockfd, (SA *) &servaddr, sizeofiservaddr)) ; 
16 lin3.l onof= = 1; /* cause RET to ze sent on cloee|) */ 
17 ling.l linger = 0; 
18 Setsockop-(isockz?d, SCL SOCKET, SO LINGER, éling, sizeofiling!); 
19 Close (sockfâ) : 


20 ex:tí2); 


nonbloct/tepeliü3.c 





图 16-21 ”建立 连接 并 发 送 一 个 RST 的 TCP 回 射 客户 程序 
设置 So_LINGER 套 接 字 选项 


16~19 一旦 连接 建立 ， 我 们 设置 so_LINGER 套 接 字 选项 ， 把 1_onoff 





标志 设置 为 1， 把 1_linger 时 间 设 置 为 0。 正 如 7.5 节 所 述 ， 这 样 的 设置 导 
至 连接 被 关闭 时 在 TCP 套 接 字 上 发 送 一 个 RST。 我 们 随后 关闭 该 套 接 
Fe 

我 们 接着 修改 图 6-21 和 6.22 中 的 TCP 回 射 服务 器 程序 ， 在 select 返 


回 监听 套 接 字 的 可 读 条 件 之 后 但 在 调用 accept 之 前 和 暂停。 在 下 面 这 段 来 
目 图 6-22 开 头 的 代码 中 ， 以 加 号 打头 的 那 两 行 是 新 加 的 。 





if (FD ISSET(listenfd, &rset)) { /* new client connection */ 
十 printf("listening socket readable\n"); 
十 sleep(5); 


clilen - sizeof(cliaddr); 
connfd - Accept(listenfd, (SA *) &cliaddr, &clilen); 


这 里 我 们 是 在 模拟 一 个 党 忙 的 服务 器 ， 它 无 法 在 select 返 回 监听 套 
接 字 的 可 读 条 件 后 就 马上 调用 accpet。 通 第 情况 下 服务 器 的 这 种 迟钝 不 
成 问题 〈 实 际 上 这 束 是 要 维护 一 个 已 完成 连接 队列 的 原因 ) ， 但 是 结合 
上 连接 建立 之 后 到 达 的 来 自 客 户 的 RST， 问 题 就 出 现 了 。 
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我 们 在 5.11 节 指出 ， 当 客户 在 服务 器 调用 accept 之 前 中 止 某 个 连接 
时 ， 源 目 Berkeley 的 实现 不 把 这 个 中 目的 连接 返回 给 服务 器 ， 而 其 他 实 
现 应 该 返回 EcoONNABORTED 错 误 ， 却 往往 代 之 以 返回 EPRoT0o 错 误 。 考 虑 一 
个 源 自 Berkeley 的 实现 上 的 如 下 例子 。 


。 客户 如 图 16-21 所 示 建 立 一 个 连接 并 随后 中 止 它 。 

e select 问 服务 器 进程 返回 可 读 条 件 ， 不 过 服务 器 要 过 一 小 段 时 间 才 
调用 accept。 

° ree ene raen 服务 器 TCP 收 到 来 自 客 

FPF WIRST. 

这 个 已 完成 的 连接 被 服务 器 TCP 驱 除 出 队列 ， 我 们 假设 队列 中 没有 

其 他 已 完成 的 连接 。 

服务 器 调用 accept， 但 是 由 于 没有 任何 已 完成 的 连接 ， 服 务 器 于 是 

阻塞 。 


服务 器 会 一 直 阻 塞 在 accept 调 用 上 ， 直 到 其 他 茶 个 客户 建立 一 个 连 
接 为 止 。 但 是 在 此 期 间 ， 就 以 图 6-22 给 出 的 服务 器 程序 为 例 ， 服 务 器 单 








纯 阻 塞 在 accept 调 用 上 ， 无 法 处 理 任何 其 他 已 就 绪 的 描述 符 。 


本 问题 和 6.8 市 讲述 的 拒绝 服务 攻击 多 少 有 些 类 似 ， 不 过 对 于 这 个 
新 的 缺陷 ， 一 旦 妨 有 客户 建立 一 个 连接 ， 服 务 咒 就 会 脱出 阻 竖 中 的 


accept。 
本 问题 的 解决 办 法 如 下 。 


(1) 当 使 用 select 获 悉 某 个 监听 套 接 字 上 何 时 有 已 完成 连接 准备 好 
被 accept 时 ， 总 是 把 这 个 监听 套 接 字 设 置 为 非 阻塞 。 


(2) 在 后 续 的 accept 调 用 中 忽略 以 下 错误 : EWOULDBLOCK CURE 
Berkeley 的 实现 ， 客 户 中 止 连接 时 ) 、ECONNABORTED (POSIX 实 
现 ， 客 户 中 止 连 接 时 ) . EPROTO 〈SVR4 实 现 ， 客 户 中 止 连 接 时 ) 和 
EINTR《〈 如 果 有 信和 号 被 捕获 ) 。 











16.7 小 结 


16.2 节 给 出 的 非 阻塞 读 与 写 的 例子 取 自 5.5 节 和 6.4 节 调用 str_cli 函 
数 的 回 射 客户 程序 ， 改 写成 在 客户 与 服务 器 的 TCP 连 接 上 使 用 非 阻 塞 式 
IO。select 通 常 结合 非 阻塞 式 IO 一 起 使 用 ， 以 便 判 断 描 述 符 何 时 可 读 
或 可 写 。 这 个 版 本 的 客户 程序 是 我 们 给 出 的 所 有 版 本 中 执行 速度 最 快 
的 ， 尽 管 其 代码 修改 确 非 易 事 。 在 这 之 后 我 们 展示 说 明 使 用 fork 把 客户 
程序 划分 成 两 部 分 由 不 同 进程 分 别 执行 要 简单 得 多 ， 我 们 将 在 图 26-2 中 
改 用 线程 应 用 同样 的 技术 。 
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非 阻塞 connect 使 我 们 能 够 在 TCP 三 路 握手 发 生 期 间 做 其 他 处 理 ， 而 
不 是 光 阻 塞 在 connect 上。 不 驻 的 是 ， 非 阻塞 connect 不 可 移植 ， 不 同 的 
实现 有 不 同 的 手段 指示 连接 已 成 功 建立 或 已 倍 到 错误 。 我 们 使 用 非 阻 
塞 connect 开 发 了 一 个 新 型 客户 程序 ， 它 类 似 同 时 打开 多 个 TCP 连 接 以 减 
少 从 单个 服务 器 取得 多 个 文件 所 需 时 钟 时 间 的 Web 客 户 程序 。 如 此 发 起 
ee eee eee 
网 络 不 利 的 。 





习题 
16.1 在 关于 图 16-10 的 讨论 中 我 们 提 到 过 ， 父 进程 必须 调 
用 shutdown 而 不 是 close。 这 是 为 什么 ? 


16.2 ”在 图 16-10 中 ， 如 果 服 务 器 进程 过 早 终止 ， 而 客户 子 进程 收 到 
来 自 服务 器 的 EOF 后 不 通知 父 进 程 就 终止 ， 将 会 发 生 什么 ? 


16.3 ”在 图 16-10 中 ， 如 果 父 进程 在 子 进程 之 前 意外 死亡 ， 而 子 进程 
随后 从 套 接 字 读 到 EOF， 将 会 发 生 什 么 ? 


16.4 在 图 16-11 中 如 果 删 掉 以 下 两 行将 会 发 生 什 么 ? 


if (n == 0) 
goto done; /* connect completed immediately */ 


16.5 我们 在 16.3 节 说 过 ， 来 自 对 端的 数据 有 可 能 在 本 端的 connect 
调用 返回 前 到 达 套 接 字 。 这 是 如 何 发 生 的 ? 
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CStevens 先 生 显然 在 6.7 节 遗漏 了 所 述 内 容 。 本 书 第 2 版 6.7 节 和 第 3 版 6.7 
市 的 内 容 是 一 致 的 。 一 一 译 者 注 


78173i ioct1 操 作 


17.1 概述 


ioct1l 疯 数 传统 上 一 直 作 为 那些 不 适合 归 入 其 他 精细 定义 类 别 的 特 
性 的 系统 接口 。POSIX 致 力 于 摆脱 处 于 标准 化 过 程 中 的 特定 功能 的 
ioct1 接 口 ， 办 法 是 为 它们 创造 一 些 特 殊 的 函数 以 取代 ioct1 请 求 。 举 例 
来 说 ，Unix 终 端 接口 传统 上 使 用 ioct1 访 问 ， 然 而 POSIX 为 终端 创造 了 
12 个 新 函数 : tcgetattr 用 于 获取 终端 属性 ，tcflush 用 于 冲刷 竺 处 理 输 
入 或 输出 ， 等 等 。 类 似 地 ，POSIX 蔡 换 了 一 个 用 于 网 络 的 iocti 请 求 : 
新 的 sockatmark 函 数 (24.377) 取代 SIOCATMARK ioctl. uth, W 
与 网 络 编程 相关 有 旦 依赖 于 实现 的 特性 保留 的 ijocti 请 求 为 数 依然 不 少 ， 
它们 用 于 获取 接口 信息 、 访 问 路 由 表 、 访 问 ARP 高 速 缓存 ， 等 等 。 


本 章 给 出 与 网 络 编程 相关 的 ioct1 请 求 的 概貌 ， 其 中 有 许多 依赖 于 
具体 的 实现 。 此 外 ， 包 括 源 自 4.4BSD 的 系统 和 Solairs 2.6 及 以 后 版 本 在 
内 的 一 些 实现 改 用 AF_RoUTE 域 套 接 字 (路 由 套 接 字 ) 来 完成 其 中 许多 操 
作 。 我 们 将 在 第 18 章 讨论 路 由 套 接 字 。 


网 络 程序 〈 特 别 是 服务 器 程序 ) 经 常 在 程序 启动 执行 后 使 用 ioct1 
获取 所 在 主机 全 部 网 络 接口 的 信息 ， 包 括 : 接口 地 址 、 是 否 支 持 广播 、 
是 否 文 持 多 播 ， 等 等 。 我 们 将 自行 开发 用 于 返回 这 些 信息 的 函数 ， 在 本 
草 提 供 一 个 使 用 ioct1 的 实现 ， 在 第 18 训 再 提供 一 个 使 用 路 由 套 接 学 的 
实现 。 
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17.2 ioctliAZW 
本 函数 影响 由 fa 参数 引用 的 一 个 打开 的 文件 。 


#include <unistd.h> 





int ioctl(int fd, int request, ... /* void *arg */ ); 
返回 : 车 成 功 则 为 0， 若 出 错 则 为 -1 











其 中 第 三 个 参数 总 是 一 个 指针 ， 但 指针 的 类 型 依赖 于 request 参 数 。 


4.4BSD 把 第 三 个 参数 定义 为 unsigned long 而 不 是 int， 不 过 这 不 成 
问题 ， 因 为 用 作 这 个 参数 的 常 值 由 头 文件 定义 。 只 要 原型 在 范围 内 《〈 例 
如 使 用 ioct1 的 程序 包含 了 <unistd.h> 头 文件 ) ， 那 么 系统 使 用 的 就 是 正 
确 的 类 型 。 


一 些 实现 把 第 三 个 参数 指定 为 void “指针 而 不 是 ANSI C 省 略 号 记 
iE. 


定义 ioct1 函 数 原 型 的 头 文件 没有 标准 ， 因 为 POSIX 未 对 它 进 行 标 
准 化 。 许 多 系统 如 上 所 示 地 在 <unistd.h> 中 定义 它 ， 不 过 传统 的 BSD 系 
统 在 <sys/ioct1l.h> 中 定义 它 。 


我 们 可 以 把 和 网 络 相关 的 请 求 〈request) 划分 为 6 类 : 


e 套 接 字 操作 ; 

。 文件 操作 ，; 

e 接口 操作 ，; 

e ARP 高 速 缓存 操作 ; 

e. 路 由 表 操 作 ; 

。 流 系统 〈 见 第 31 章 ) 。 


回顾 图 7-20， 我 们 知道 不 但 某 些 ioct1 操 作 和 某 些 fcnt1 操 作 功 能 重 
县 ( 壁 如 把 套 接 字 设置 为 非 阻塞 ) ， 而 且 某 些 操作 可 以 使 用 ioct1 以 不 
止 一 种 方式 指定 〈 壁 如 设置 套 接 字 的 进程 组 属 主 〉。 


图 17-1 列 出 了 网 络 相 关 ioct1 请 求 的 request 参 数 及 arg 地 址 必须 指 回 
的 数据 类 型 。 以 下 各 节 详 细 讲 解 这 些 请 求 。 


数据 类 型 
SIOCNIMRRK 是 宕 位 于 带 外 标记 
SLOSS We He FE ID A DEED 
STOOGPGSP SHEE ME RID OR BERYL ID 
FPANIO VERE RAE BUR XV Odes 
ie cen He WANERAÁS S GI Seb VOS 
paeem 获取 接收 级 溃 区 中 的 季节 数 
FIOSETONN 设置 文件 的 进程 TD 或 进程 组 ID 
EIOGEIONN 获取 文件 的 进补 ID 或 进程 组 ID 
SIOCG-FCONF 3C BE mm e struct ifconf 
SLOCSLFADDR 设置 接口 地 址 struct ifrcq 
SIOCGIFADDR Sh He LA struct ifreg 
SIOCSIPFLAGS 设置 接口 标志 struct itreq 
SIOCGIFFLAS3S IU ero struct ifreq 
SIOCSIFDSTADDR 催 置 点 到 点 地 址 struct ifreq 
SIOQOGIFOSTADDR Fe YY AH) Pt he struct ifreq 
STOOGIFSRDADDR 获取 广播 地 址 struct ifreq 
SIOCSIFSRDADDR 设置 广播 地 址 struct ifreq 
STOOGTFNETMASK Tip [HELE struct ifreq 
SIOCSIFNETMASK Wm FEY struct ifreq 
STOCGTFMETRIC $e Oy Be p fr n HE struct ifreq 
SIOCSIFMETRIC vaver o pb struct ifreq 
ee 获取 接口 MTU struct ifreq 
SIIC (还 有 很 多 ， 取 决 于 实现 ) struct ifrcq 

ARP STOCSARP 甸 建 /修改 ARP 老 项 struct arpreq 
SIOCGARP TX ARP H ii struct arpreq 
SIOCDARP 型 除 ARP 去 项 struct arpreq 


路 由 SIOCADDST X5 NER FE struct rtentry 
SIOCDELST HH TE struct ztentry 




























(8 31,531) 
图 17-1 网 络 相 关 ioct1 请 求 的 总 结 


17.3” 套 接 字 操作 


明确 用 于 套 接 字 的 ioct1 请 求 有 3 个 〈TCPv2 第 551 一 553 页 ) 。 它 们 
都 要 求 ijoct1 的 第 三 个 参数 是 指向 某 个 整数 的 一 个 指针 。 


SIOCATMARK ”如 果 本 套 接 字 的 读 指 针 当 前 位 于 带 外 标记 ， 那 就 通过 
由 第 三 个 参数 指 同 的 整数 返回 一 个 非 0 值 ， 盏 则 返回 一 个 0 值 。 我 们 将 在 
第 24 章 详细 讲解 带 外 数据 。POSIX 以 函数 sockatmark 蔡 换 本 请 求 ， 我 们 
将 在 24.3 节 给 出 这 个 新 函数 使 用 ioct1 的 一 个 实现 。 
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SIOCGPGRP ”通过 由 第 三 个 参数 指 回 的 整数 返回 本 套 接 字 的 进程 ID 
或 进程 组 ID， 该 ID 指定 针对 本 套 接 字 的 SIGTo 或 sTGURG 信 号 的 接收 进 
程 。 本 请 求 和 fcnt1 的 F_G6ETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 标 准 化 的 
是 fcntl 操 作 。 


sIoCsPGRP “把 本 套 接 字 的 进程 ID 或 进程 组 ID 设置 成 由 第 三 个 参数 
指 同 的 整数 ， 访 ID 指定 针对 本 套 接 字 的 SI6I0 或 SIGUR6 信 号 的 接收 进 
程 。 本 请 求 和 fcnt1 的 F_SETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 标 准 化 的 
是 fcntl 操 作 。 











17.4 文件 操作 


下 一 组 请 求 以 FIO 打 头 ， 它 们 可 能 还 适用 于 除 套 接 字 外 某 些 特定 类 
型 的 文件 。 本 节 仅 仅 讨 论 适 用 于 套 接 字 的 请 求 《TCPvV2 第 553 页 ) 。 以 
下 5 个 请 求 都 要 求 ioct1 的 第 三 个 参数 指向 一 个 整数 。 


FIONBIO ”根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ,可 清除 或 设 
置 本 套 接 字 的 非 阻 塞 式 IO 标志 。 本 请 求 和 o_NoNBLocK 文 件 状态 标志 等 
效 ， 而 可 以 通过 fcnt1 的 F_sETFL 命 令 清除 或 设置 该 标志 。 


FIOASYNC ”根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ， 可 清除 
或 设置 针对 本 套 接 字 的 信号 驱动 异步 WO 标志 ， 它 决定 是 否 收取 针对 本 
套 接 字 的 异步 WO 信号 (SIGIO) 。 本 请 求 和 o_ASYNC 文 件 状 态 标 志 等 效 ， 
而 可 以 通过 fcnt1 的 F_sETFL 命 令 清 除 或 设置 该 标志 。 

FIONREAD ”通过 由 ioct1 的 第 三 个 参数 指向 的 整数 返回 当前 在 本 套 
接 字 接收 缓冲 区 中 的 字 节 数 。 本 特性 同样 适用 于 文件 、 管 道 和 终端 。 我 
们 已 在 14.7 节 讨论 过 本 请 求 。 


FIOSETOWN ”对 于 套 接 字 和 srI0CSPGRP 等 效 。 


























4g 


4g 


FIOGETOWN ”对 于 套 接 字 和 srI0CGPGRP 等 效 。 


17.5 ”接口 配置 


需 处 理 网 络 接口 的 许多 程序 治 用 的 初始 步骤 之 一 就 是 从 内 核 获取 配 
置 在 系统 中 的 所 有 接口 。 本 任务 由 srIoc6IFcoNF 请 求 完 成 ， 它 使 用 ifconf 
结构 ，ifconf 又 使 用 ifreq 结 构 ， 图 17-2 给 出 了 这 两 个 结构 的 定义 。 








nei h» 
struct ifcouf [ 
lint ifc len: /* size of buffer, value-resulc */ 
union { 
caddr_t ifcu buf; /* input frcn user -> kernel */ 
struct ifreg *ifcu req; /* return from keel -> user */ 
) ifc ifou: 
hy 
#define ifc_buf ifc ifcu.ifcu bu: /* buffer address */ 
#d=fine ife rej ifc_ifcu-ifeu_reg /* array of stroctures returced */ 
#dafina IFNAMSIZ 16 
struct itreq { 
char ifxr_nanellPNAMSI21; /* interface nave: e.g., "let" */ 
union { 
struct sockaddr ifru_addr; 
struct sockaddr itru dstaddr: 
struct sockaddr ifru_broadaddr; 
shir! ifru_flags; 
int ifru metric; 
caddy t ifru data; 
] ifr ifr 
) 
fdsfina ifr addr ifr ifru.ifru addr /* address */ 
#define ifr dstedzr ifr ifru.itru dstadzr  /* ctLer send of p-to-p .in«x */ 
#dsefine ifr broedaddr ifr ifru.ifru broadaddr /* broadcas- address */ 
#dzfine ifr flags ifr ifru.ifru flans /* flags 4/ 
tdsfins ifr metric ifr ífru.ifru metric /* metric */ 
#dsfine ifr Gta ifr ifru.ifru dzta /* for s92 by interfzcz */ " 
cneiif.h» 








图 17-2 ”用 于 接口 类 各 个 ioct1 请 求 的 ifconf 结 构 和 ifreq 结 构 


在 调用 ioct1 前 我 们 先 分 配 一 个 缓冲 区 和 一 个 ifconf 结 构 ， 然 后 初 
始 化 后 者 。 图 17-3 展 示 了 这 个 ifconf 结 构 的 初始 化 结果 ， 其 中 假设 缓冲 
区 的 大 小 为 1024 字 节 。ioct1 的 第 三 个 参数 指向 这 样 的 ifconf 结 构 。 


ifconfi) -— 
ifc len 





图 17-3 ”sroc6IFCONF 前 ifconf 结 构 的 初始 化 结果 





假设 内 核 返回 2 个 ifreq 结 构 ， 在 ioct1 返 回 时 通过 同一 个 ifconf 结 构 
所 返回 的 值 如 图 17-4 所 示 。 阴 影 区 域 为 被 ioct1 修 改过 的 部 分 。 绥 冲 区 
中 填 入 了 那 2 个 ifreq 结 构 ，ifconf 结 构 的 ifc_len 成 员 也 被 更 新 ， 以 有 反映 
存放 在 绥 冲 区 中 的 信息 量 。 本 图 假设 每 个 freq 结 构 占 用 32 个 字 节 。 


ifconf() 


ifc name[] 


ifreq() 


fepe ph bb £6 


ifc name[] 


ifreq{} 


套 接 字 地 址 结构 





图 17-4 ”sroc6IrFcoNF 返 回 的 值 


指 问 某 个 ifreq 结 构 的 指针 也 用 作 图 17-1 所 示 接 口 类 其 余 ioct1l 请 求 
的 一 个 参数 ， 对 此 我 们 将 在 17.7 市 继续 讲解 。 注 意 ifreq 结 构 中 含有 一 个 
联合 ， 而 众多 #define 隐 藏 了 这 些 字段 实际 上 是 该 联合 的 成 员 这 一 事 
实 。 对 于 该 联合 某 个 成 员 的 所 有 引用 都 使 用 如 此 定义 的 名 字 。 注 意 有 些 
系统 往 这 个 ifr_ifru 联 合 中 增添 了 许多 依赖 于 实现 的 成 员 。 





17.6 get ifi info 函 数 


既然 很 多 程序 需 知 道 系 统 中 的 所 有 接口 ， 我 们 于 是 开发 一 个 名 
为 get_ifi_info 的 函数 ， 它 返回 一 个 结构 链表 ， 其 中 每 个 结构 对 应 一 个 
当前 处 于 “up”( 在 工 ) 状态 的 接口 。 我 们 在 本 节 使 用 srIoc6IFCONF ioctl 
实现 这 个 函数 ， 在 第 18 章 中 将 开发 一 个 使 用 路 由 套 接 字 的 版 本 。 


FreeBSD 提 供 了 一 个 实现 类 似 功 能 的 名 为 getifaddrs 的 函数 。 


搜索 FreeBSD 4.8 的 整个 源 代 码 树 发 现 有 12 个 程序 发 出 STocGIFCONF 
ioct1 请 求 以 确定 存在 的 接口 。 
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我 们 首先 在 一 个 名 为 unpifi.h 的 新 头 文件 中 定义 ifi_info 结 构 ， 如 
图 17-5 所 示 。 


üb/tinpifih 





1 /* Cur own header for che programs: chat need interface configuration info. 
z Include this file, instead of “unp.h". */ 


3 fitndcti unp ifi a 
4 #define — unp ifi à 


§ &in ue "ur p. hi" 

6 finclude enst/ift.h> 

7 #actine IFI_NAVE i6 /* same ac IFNAMSIZ in «nct/ir.h» */ 

6 #define IFI LAZDR B /* allow for C4-bit EJI-C4 ir future */ 
9 xl rcl ifi inf ( 

10 char ifi nare[-7I NANE]: /* interface rare, null-terminatsd */ 
11 enort iti index; /* interface index */ 

12 short ifi mtu; /* interface MTU */ 

13 u_char ifi haddr[IFT HADOR]: /^* ha-twarm address */ 

14 u short ifi hian; /* f bytes in hardware address: C, 6, 3 */ 
15 short ifi_fiaqs; /* I?P xxx conctanto Erom <nct/if.a> */ 
16 short ifi myflags; /* cr own. IFI xxx flags */ 

17 s-ruc- sockaddr  *ifi addr: /* primary zdiress */ 


18 struct sockaddr Yifi brdadér;  /* broadcast address */ 
19 Struct sockaddr ‘*ifi_dstedécr;  /* destination address */ 


20 ainei tfi_infa *ifi next; /* next of these structures 4/ 
21 | 

22 #Jefine IFI ALIAS 1 /* ifi adir is an alias */ 

23 /* function procotyres */ 


34 ctruct ifi inzoco *qst :fi infolint, int); 
25 struct ifi inco *Get ifi infolint, int); 
26 void free if: infoistruct ifi info *!; 
2? $cndif /* wp iEi h */ 


lbunpifi.t 


图 17-5 unpifi.h 头 文件 


o-21 我们 的 函数 返回 一 个 本 结构 的 链表 ， 其 中 每 个 结构 的 
ee dh S4 WEZ 上 构 中 返回 了 典 型 的 应 用 程序 

能 关注 的 信息 : SUKA RURI MTU, pibe FWAR 
rash) fe bps CCMA Fee 7 Re ET FR SH, SX 
是 一 个 点 到 点 接口 ) 、 接 口 地 址 、 广 播 地 址 、 点 到 点 链 路 的 目的 地 址 。 
用 于 存放 ifi_info 结 构 和 其 t 中 所 含 套 接 字 地 址 寺 构 的 内 存 空 x 间 都 是 动态 
获取 的 。 我 们 于 是 还 提供 一 个 名 为 free ifi info 的 函数 以 释放 所 有 动 
态 获取 的 内 存 空 间 。 


在 给 出 get-ifi_info 国 娄 的 实现 之 前 ， 我 们 先 给 出 一 个 调用 该 函数 
并 随后 输出 所 有 信息 的 简单 程序 。 该 程序 是 ifconfig 程 序 的 一 个 微型 版 
本 ， 如 图 17-6 所 示 。 








ined pr ifinfac 


1 Hinclads "urpifi.h" 
2 int 
3 mainiint argc, char **arew! 
a { 
5 struct ifi info *i-i, *ifihead; 
6 struct sockaddr *sa, 
? u_char *ptr: 
8 irt i, family, doaliases; 
9 if 4axcc l- 3) 
10 err quit ("uaace; prifinfo «inet4|iretó» <dosliases=") ; 
11 if (strcmpiargv[i], "inet4a") == 0) 
12 femily = AF_INET; 
13 else if (stzcmp(argv[-], “ineré') == 0) 
14 family = AP INET6; 
15 else 
16 err_quit ("invalid «address-family-":; 
1? doaliases = atoi[srqgv[21); 
18 for (ifshead - ifi - Get_ifi_info!family, doaliases! ; 
is ifi |= NULL; ifi = ifi->ifi_ next) | 
20 princt(*ts; ", ifi >ifi_name! ; 
21 if /ifi-s1fi index !- Q) 
22 rrintt;";$d) ", izi-zifi index): 
23 printf (*e*); 
24 if (ifi->-ifi_flags & ITT UP) printfi"UP '|; 
25 if iifi-»ifi flags & IFF BROADCAST) printf "BIAST "); 
26 at (ifi-»ifi_tlags & IFF_MULTICAST) grint MAST "); 
27 if (ifi-sifi flags & IFF -OOPBACK] grintf "LOP "); 
2 at (1iti->ifi_Flags & IFP SOINTOPO-NT) srintt ("Par "); 
2 prinzf (*2\u"); 
30 if į {i = iFi-si£i hlen! > C: [ 
31 ptr s ifi-»ifi haddr; 
32 do | 
33 printf("$six", (i == ifi-»izi hlen; ? " " : ":", ^ptree); 
34 ) while i--i > 0); 
35 printfi"Mn*); 
36 ; 
27 if lifi-sifi mtu !s 4) 
38 zrintf;" MIU: Sn ifi-»ifi mtu); 
39 if ( isa = ifi->ifi_addr) != NULL) 
40 crintt," IP addr: to\n", Sock _ntop_host(sa, cizect(*2a))]; 
41 if i {sa = ifi-»ifi -rüaddr) != NULL) 
42 zrintt;" broadcast addr: ts\n", 
43 Sock ntcp host(se, sizentítsal)); 
44 if | {ša = ifi->ifi_dstaddr) I= NULL) 
45 print ((" destination addr: s\n", 
45 sock ntcp host(sa, eiaeotí*83,)!; 
47 ] 
18 free if. info(:fihead); 
43 exit (0t; 
so } 
ined’ prifinta.c 
图 17-6 ”调用 get_ifi_info 函 数 的 prifinfo 程 序 
. H H ay Ma y 
18-47 “本 程序 是 一 个 for 循 环 ， 调 用 get_ifi_info 一 次 后 遍历 所 返 


回 的 所 有 :ifi_info 结 构 。 





20-36 “显示 接口 的 名 字 、 索 引 和 标志 。 如 果 硬 件 地 址 长 度 大 于 0， 
那 束 将 其 显示 为 十 六 进 制 数 的 形式 。〔 如 果 无 法 得 到 硬件 地 
址 ，get_ifi_info 国 数 返 回 的 ifi_hlen 值 将 为 0。 ) 


37-46 “如果 返回 的 话 ， 显 示 MTU 和 那 3 个 IP 地 址 。 
如 果 在 主机 macosx〈 图 1-16) 上 执行 这 个 程序 ， 我 们 得 到 如 下 和 输 


macosx % prifinfo inet4 0 
lo0: «UP MCAST LOOP > 
MTU: 16384 
IP addr: 127.0.0.1 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.78 
broadcast addr: 172.24.37.95 


第 一 个 命令 行 参 数 inet4 指 定 IPv4 地 址 ， 第 二 个 命令 行 参数 0 指定 不 
返回 地 址 别名 (我 们 将 在 A 4 节 讲解 下地 址 别名 。 0 XA 
统 上 ， 使 用 这 种 方法 无 法 得 到 以 太 网 接口 的 硬件 地 址 。 


如 果 给 以 太 网 接口 Cena) 增设 3 个 别名 地 址 (它们 的 主机 ID 分 别 为 
805181) ， 并 且 把 第 二 个 命令 仿 行 参数 改 为 1 我 们 会 得 到 以 下 结 


maxosx % prifinfo inet4 1 
lo0: «UP MCAST LOOP > 
MTU: 16384 
IP addr: 127.0.0.1 
eni: «UP BCAST MCAST » 
MTU: 1500 
IP addr: 172.24.37.78 主 IP 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.79 第 一 个 别名 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.80 第 二 个 别名 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.81 第 三 个 别名 地 址 
broadcast addr: 172.24.37.95 














如 果 在 FreeBSD 系 统 上 运行 同样 的 程序 ， 不 过 使 用 图 18-16 中 的 
get_ifi_info 实 现 〈 使 用 这 个 实现 可 以 很 容易 地 获取 硬件 地 址 ) ， 我 们 
得 到 以 下 结 





471~473 


freebsd4 % prifinfo inet4 1 
de0: «UP BCAST MCAST > 
0:80:c8:2b:d9:28 
IP addr: 135.197.17.100 
broadcast addr: 135.197.17.255 
dei: «UP BCAST MCAST > 
0:40:5:42:d6:de 
IP addr: 172.24.37.94 主 IP 地 址 
broadcast addr: 172.24.37.95 
de1: <UP BCAST MCAST > 
0:40:5:42:d6:de 
IP addr: 172.24.37.93 别名 地 址 
broadcast addr: 172.24.37.93 
100: «UP MCAST LOOP > 
IP addr: 127.0.0.1 





在 本 例 中 我 们 指示 程序 输出 别名 地 址 ， 结 果 发 现 第 二 个 以 太 网 接口 
(de1) 定义 了 一 个 主机 ID 为 93 的 别名 。 


下 面 给 出 使 用 sIoc6IFCONF ioct1 实 现 的 get_ifi_info 函 数 。 图 17-7 
给 出 第 一 部 分 ， 它 从 内 核 获取 接口 配置 。 


li/get Wi info.c 





1 &incluce "uupifi.h" 


2 struct iÉ- info * 
i get iti into(int tamily, int doaliasco) 


4 | 

5 struct E nfi *ifi, *itihead, **ifipmext.; 

& int sockfd, len, lastlen, flags, myflacs, idx = 0, Flen = 0; 
了 char "ptr, “but, lastname|IFNAMSIZ], *cptr, *haddr, *sdlnzmc; 
6 struct :fccnf ifc; 

e struct -freg ifr, if-vcopy; 

ic struct soc«addr in *s npr; 

11 struct sockaddr_inő *sinéptr; 

12 sockfd = Scckel ‘AF_INET, SOCK_DGRAN, 0); 

13 Jastlen = 3; 

14 len ~ 10C * gizeot(struct itfrsq!; /* initial buffer size guess */ 
15 for 4 zp b4 

1€ muf = Mallocí(ler!; 

17 ifz.ifc_len = lan; 

16 ifc.itec but = buf; 

19 if /iectlisockiad, SIOCGIFCONF. &ifz! < 0) [ 

20 if (errno ! s R7NVAT, || lastlen !a f) 

21 err sysi('ioctl srror"); 

22 } else | 

23 if (ifc.ife_len == lastlen) 

24 nreak; /* success, len hes not changed */ 
25 lastlen - ifc.-fc len; 

26 ) 

25 len «s 10 * sizeof [struct iren); J* increment */ 

2& Free (buf); 

29 } 

30 ifihead = NULL; 

31 ifipnext = &ifihead; 

32 lascrame[0] - J; 

3i cdinzme = NULL; 


liber il info.c 


图 17-7 “发 出 sroccIFCONF 请 求 以 获取 接口 配置 
创建 一 个 网 际 网 套 接 字 


12 ”创建 一 个 用 于 ioct1 的 UDP 套 接 字 。TCP 套 接 字 或 UDP 套 接 字 都 
可 以 使 用 (TCPv2 第 163 页 ) 。 


在 一 个 循环 中 发 出 SrocGIFcoONF 请 求 


13-29 ”SI0OCGIFCONF 请 求 存在 的 一 个 严重 问题 是 ， 在 绥 冲 区 的 大 小 
不 足以 存放 结果 时 ， 一 些 实现 不 返回 错误 ， 而 是 截断 结果 并 返回 成 功 
《 即 ioct1 的 返回 值 为 0) 。 这 一 点 意味 着 要 知道 缓冲 区 是 否 足 够 大 的 唯 
-办 法 是 : 发 出 请 求 ， 记 下 返回 的 长 度 ， 用 更 大 的 缓冲 区 发 出 请 求 ， 比 
LE 只 有 这 两 个 长 度 相 同 ， 我 们 的 缓冲 区 











源 目 Berkeley 的 实现 在 缓冲 区 太 小 时 不 返回 错误 〈TCPv2 第 118 一 
119 页 ) ， 结 果 被 截 成 适合 缓冲 区 的 可 用 大 小 。 与 此 相反 ，Solaris 2.5 在 
返回 的 长 度 将 会 大 于 或 等 于 缓冲 区 的 长 度 时 返回 EINVAL 错 误 。 然 而 即使 
返回 的 长 上 度 小 于 绥 冲 区 的 大 小 ， 我 们 也 不 能 肯定 确实 成 功 ， 因 为 源 自 
eee Veen aoe 
冲 区 长 度 。 


有 些 实现 中 提供 了 用 于 返回 接口 数目 的 名 为 srToc6IFNUM 的 请 求 。 它 
使 得 应 用 进程 能 够 在 发 出 SITocGIFcoNF 请 求 之 前 分 配 一 个 足够 大 小 的 组 
冲 区 ， 不 过 这 个 新 请 求 尚未 被 广泛 实现 。 


随 着 Web 的 增长 ， 为 SIocGIFcONF 请 求 返 回 的 结果 预 分 配 一 个 固定 长 
上 度 的 缓冲 区 这 一 做 法 也 成 了 问题 ， 因 为 大 的 web 服务器 主机 把 越 来 越 多 
的 别名 地 址 赋予 单个 接口 。 举 例 来 说 ，Solaris2.5 对 于 每 个 接口 可 赋予 别 
名 地 址 数 的 限制 为 256，Solaris 2.6 则 把 这 个 限制 增加 到 8192。 使 用 大 量 
别名 地 址 的 网 站 已 经 发 现 使 用 固定 大 小 缓冲 区 获取 接口 信息 的 程序 开始 
工作 失常 。 尽 管 Solaris 在 缓冲 区 太 小 时 返回 错误 ， 这 些 程序 只 是 分 配 固 
定 大 小 的 缓冲 区 ， 发 出 ioct1 却 不 处 理 可 能 返回 的 错误 〈( 壁 如 重新 分 配 
缓冲 区 再 次 发 出 ioct1) ， 导 致 进程 可 能 意外 死亡 。 


13-16 ”动态 分 配 一 个 缓冲 区 ， 一 开始 为 100 个 ifreq 结 构 的 空间 。 
在 lastlen 中 记录 最 近 一 次 sIoc6IFCONF 请 求 返回 的 长 度 ， 其 初始 值 为 0。 


20-21 如 果 ioct1 调 用 返回 一 个 EINVAL 错 误 ， 而 且 成 功 返 回 的 ioctl 
调用 未 曾 发 出 过 〈 即 lastLlen 仍 为 0) ， 那 么 我 们 刚才 分 配 的 缓冲 区 还 不 
够 大 ， 于 是 继续 经 历 循 环 。 


23-24 ”如果 ioct1 调 用 返回 成 功 ， 而 且 返 回 的 长 度 等 于 lastlen， 那 
么 与 上 次 ioct1l 调 用 返回 的 长 度 相 比 没有 变化 (表明 刚才 分 配 的 缓冲 区 
DEER) ， 于 是 break 出 循环 ， 因 为 我 们 已 经 得 到 所 有 接口 配置 信 














27-28 ”每 次 经 历 循环 时 ， 把 缓冲 区 的 大 小 增 至 能 额外 存放 10 
个 ifreq 结 构 。 


初始 化 链表 指针 
30-33 “既然 将 来 要 返回 指向 某 个 ifi_info 结 构 链 表 之 头 结 构 的 一 


个 指针 ， 我 们 于 是 使 用 两 个 变量 ifihead 和 ifipnext 在 链表 构造 过 程 中 保 
存 指针 。 


474—476 


get_ifi_infoP NB up EE AA NATE, "IÉEI7-8BTZR. 


liget i info.c 
34 for (ptr = buf; ptr < but + :fc.ifc len; | 
35 ifr s (struct ifreq *) ptr; 


36 Wifdef AVE SOCXADDR 5A LEN 


37 len = maxisizeof (struct sockaddr}, ifr-»ifr addr.sa len); 
38 Belus 

39 Bwitch /ifr--ifr addr.sa family) 

10 #ifdet  IPUG 

41 case A? INET6 : 

a2 len = sizeof (struct scckaddr in6); 

343 break; 

44 #endit 

45 case A7 INET: 

A6 defar t: 

a len = sizeof(struct scckaddr): 

48 break; 

49 } 

50 &endif /* HAVE SOCKADDR SA LIN ¢/ 

51 ptr +- sizeožiifr->iťfr name) + len; /* for next ons in buffer */ 


52 #ifdef AVE SOCXADDR DL SCRUCT 


53 /* assumes that AF LINK precedes AF INET or AF INETé */ 

34 if ‘ifr->ifr adiír.sa family -- AF LINK) { 

35 struct sockzddr dl *sdl = {struct sockaddr_dl *)4itr->:tr_addr; 
36 sdlname ~ ifr-»ifr rame; 

57 idx = sdl-»sdl index; 

38 haddr = sdl-*sdl data + sdl-5sdl nlen; 

59 kien = edl-»ed. aler; 

50 } 

51 $Sendif 

53 if jifr->ifr_adcr.ea_Camily 1= zamily] 

53 continue; /* ignore if not desired adress family */ 
54 myflags - 0; 

55 itf | |cpzr = otrehr(itr-sitr nome, ':')) t= NULL; 

$ *eptr - 0; /* yepisce colon with null */ 

57 if {strncmp(lestnens, ifr-»ifr name, -FMAMSIZ) == 0) { 

5 if :;doaliases == 2] 

59 continue; /* already prccsesed this interface */ 
70 myElaqs = IPI_ALIASS; 

71 } 

72 metcry (lastname, ifr->ifr_ name, IFNAMSIZ); 

73 ifrecpy = ‘itr; 

74 Ioctlísockfd, SIOCGIPFLAGS, &if-copy); 

75 flags = ifrcopy.ifr flaus; 

76 it ;(flags & IFF UP) -- 0! 

7 continue; /* imore -f interface not us */ 


libiger iñ info 


图 17-8 ”处 理 接口 配置 
步 入 下 一 个 套 接 字 地 址 结构 


35-51 在 遍历 所 有 ifreq 结 构 的 过 程 中 ，ifr 将 指向 每 个 结构 ， 我 
们 随后 增长 ptr 以 指向 下 一 个 结构 。 这 里 我 们 必须 既 处 理 为 套 接 字 地 址 
结构 提供 长 度 字段 的 较 新 系统 ， 又 处 理 不 提供 这 个 长 度 的 较 老 系统 。 尽 
管 图 17-2 中 的 声明 指出 ifreq 结 构 中 包含 的 套 接 字 地 址 结构 是 一 个 通用 
套 接 字 地 址 结构 ， 在 较 新 的 系统 中 它 却 可 以 是 任何 类 型 的 套 接 字 地 址 结 
构 。 事 实 上 4.4BSD 还 为 每 个 接口 返回 一 个 数据 链 路 套 接 字 地 址 结构 
CTCPv2 第 118 页 ) 。 因 此 如 果 长 度 成 员 受 支持 ， 我 们 束 必 须 使 用 其 值 
来 更 新 指向 下 一 个 套 接 字 地 址 结构 的 指针 ptr， 人 否则 基于 地 址 族 使 用 一 
个 长 度 ， 默 认为 通用 套 接 字 地 址 结构 的 大 小 〈16 字 节 ) 。 


我 们 为 支持 IPv6 的 较 新 系统 增添 一 个 case 语 句 只 是 以 防 万 一 。 问 题 
在 于 ifreq 结 构 中 的 那个 联合 把 返回 地 址 定义 为 通用 的 16 字 节 sockaddr 
结构 ， 它 对 于 IPv4 的 16 字 节 sockaddr_in 结 构 是 够 了 ， 对 于 IPVv6 的 24 字 节 
sockaddr_in6 结 构 却 太 小 。 尺 管 在 为 sockaddr 结 构 提 供 长 度 字 上 段 
(sa_len) 的 较 新 系统 中 可 以 使 用 其 值 来 解决 本 问题 ， 然 而 返回 IPv6 地 
人 


处 理 AF_LINK 


52-60 如 果 系 统 支持 在 SIocGIFCONF 中 返回 AF_LINK 地 址 族 的 
sockaddr 结 构 ， 我 们 就 从 中 复制 接口 索引 和 硬件 地 址 信息 。 


62~63 忽略 所 有 不 是 调用 者 期 望 的 地 址 族 的 地 址 。 
处 理 别 名 地 址 


64~72 ”我 们 必须 检测 当前 接口 可 能 存在 的 任何 别名 地 址 ( 即 赋予 
该 接口 的 额外 地 址 ) 。 注 意 Solaris 用 于 别名 地 址 的 接口 名 字 中 含有 一 个 
冒号 ，4.4BSD 却 不 在 接口 名 字 上 区 分 别名 地 址 和 主 地 址 。 为 了 处 理 这 两 
种 情况 ， 我 们 把 最 近 处 理 过 的 接口 名 字 存 入 lastname， 并 且 在 与 当前 接 
口 名 字 比 较 时 ， 知 有 冒号 则 只 比较 到 冒号 。 不 论 是 否 有 冒号 ， 如 果 比 较 
结果 为 相同 ， 我 们 就 忽略 当前 接口 。 


获取 接口 标志 























73-77 “我们 发 出 一 个 ioct1 的 SIocGIFFLAGS 请 求 〈17.5 节 ) 以 获取 
接口 标志 。ioct1 的 第 三 个 参数 是 指 癌 某 个 ifreq 结 构 的 一 个 指针 ， 该 结 
构 中 必须 包含 要 获取 其 标志 的 接口 的 名 字 。 该 结构 是 我 们 在 调用 ioct1 
之 前 从 当前 ifreq 结 构 复 制 成 的 ， 因 为 如 果 不 这 么 做 ，ioctl 调 用 将 覆 写 
当前 ifreq 结 构 中 己 有 的 IP 地 址 ， 因 为 接口 标志 和 IP 地 址 在 ifreq 结 构 中 
是 同一 个 联合 的 不 同 成 员 ， 如 图 17-2 所 示 。 如 果 当 前 接口 不 处 于 在 工 状 
dx. SEA LANA E. 


图 17-9 给 出 get_ifi_info 国 数 的 第 三 部 分 。 











Re Ui info.c 





78 ifi s Callce(1, sizeofí(struct ifi info)l; 


79 *lfipnsxt = ifi; /* prev points to this new ore */ 
EO izipnext = &ifi-»ifi rext; /* pointsr to next one coes hers */ 
f” iTi-sif flags = flegs; y* TFF xxx values */ 

E2 iti »ifi myflàqo = myticqs; /* IPFI xxx values */ 

£3 $if defined (STOCSIEMTU) e defined (HAVE STRUCT TER3Q ITP NTU) 

£4 loctl(sockEd, OIOCGIPMTU, &ifrcopy): 

E5 ifi-sifi mtu = ifrcopy.ifr wtu; 

E6 #else 

ET ifi-»ifi mtu - 0; 

£A $endif 

E9 memcpy (i:£i->ifi_name, ifr »ifr name, IFI NAME); 

eo ifi-*ifi nane([IFI HZME-1] = '40'; 

el /* If the sockaddr dl is from a different interface, igrore is */ 
$2 i= (edinams -- NULL || etremp(sdlname, ifr->ifr name; i- U) 
$3 idx = Lien = 0: 

54 izi-zifi index = idx; 

$5 ifi->ifi_hlen = hlen; 

26 if (ifi--iE- hlen > IPI HADDR) 

97 ifi-»>ifí hlen - IFI HADOR; 

$8 i= (hlen) 

99 memcpy {ifi->ifi haddr, naddr, ifi->ifi_hlen); 


biger iñ infec 





图 17-9 分配 并 初始 化 ifi_info 结 构 
分 配 并 初始 化 ifi_info 结 构 


78~99 至 此 我 们 知道 将 回调 用 者 返回 当前 接口 。 我 们 动态 分 配 一 
个 ifi_info 结 构 ， 并 把 它 加 到 正在 构造 中 的 链表 的 末尾 。 我 们 把 接口 的 
标志 、MTU 和 名 字 复 制 到 这 个 结构 中 。 我 们 确保 接口 的 名 字 总 是 以 空 
字符 结尾 ， 而 且 既 然 calloc 已 把 所 分 配 区 域 全 部 初始 化 为 0， 我 们 知 
道 ifi_next 也 已 被 初始 化 为 空 指针 。 我 们 复制 保存 的 接口 索引 和 硬件 地 
址 长 度 ， 知 该 长 度 不 为 0 则 同时 复制 保存 的 硬件 地 址 。 











17-1025 H1get ifi infoPAZAB EE — ub. 


liget Ui info.c 








100 switch (ifr-»i£r gdir.sa family) | 

101 case As INET: 

102 finprr = (struct d crura in *) &ifr-»ifr addr; 

103 ifi-sifi add: z Tec), sizeo(struüc- sockaddr in)! 

104 memepy (ifi--ifi "adde, sinptz, sizeof (arruct sockaddr . in); 


105 4iicef sS.7CC. BADADDE 
105 if (flags « IFF_BROADCAST) 


107 Toctl (sock, STOOGTFaRMAMOR, & fr any); 

108 sigptr = struct sockaddr in *) S&ifrcopy.ifr broacazdr; 
109 ifi-»iti brdazdr = Calloc(1, sizczoE|struct sockadór_ inl): 
110 j verepy (3fi-»ifi braaddr, sínptr,ciazecf (struct sockaddr in)); 
111 

112 Jencif 

113 ifef z:2CG-7D3TADDR 

114 if ;flaaqs a IFP PCCNTCPOINT| [ 

115 loctlicockt d, SIOUGIFOSTADOR, &lfrcocy!; 

116 simptr = istruct sockaddr in +) &ifr-opy.ifr dstacdr; 

117 ifi-»ifi dstacdr = Calloc(1, sizeofistruct seckaddr_in)); 
118 } wencpy (ifi->ifi dstaddr, sinptr, izeof(struct sockacdr in)); 
119 

120 *tencif 

121 break; 

122 case A7 INET6: 

123 sinéptr - (struct socxaddr in6 *) &ifr-»ifr addr: 

121 ifi-»iti aaa = Ca.loc;i, sizeoz(setrucz zockaddr intj); 

125 memcovy(ifi-»ifi addr, sinsptr, sizeof (struct sockad^r :r6))]; 
126 4ifcef STOCGTFDSTADDR 

127 if {flags & IPF PCCNTCPOINT! | 

128 Ioctl(cocktd, SIOCCIFOSTADOR, &:frcocy!; 

129 sinéptr = (struct eccxadd> ine *) &:frcopy.itr detacdr; 
130 ifi-»ifi dstacdr = Calloc(1, sizsof (struct sockeddcr iné)); 
131 wencpy (ifi-sifi dstaddr, sinéptr, 

132 sizeof (struct sockaddr_int!), 

133 

1:4 tencif 

138 break 

136 default 

137 break 

138 } 

139 ) 

140 free (buf); 

141 return(ifiread), /* pointer to first structure in linked list */ 
142 ) 


liber ifi infc.c 


图 17-10 ”获取 并 返回 接口 地 址 


1902-104 把 由 最 初 的 SIocGIFcoONF 请 求 返回 的 卫 地 址 复制 到 我 们 正 
在 构造 的 结构 中 。 


106-119 ”如 琳 当 前 接口 支持 广播 ， 我 们 束 用 ioct1 的 
a i E 播 地 址 。 PISES TE Ti 
结构 以 存放 该 地 址 ， 并 把 它 加 到 正在 构造 的 ifi_info 结 构 中 。 类 似 地 ， 
如 果 当 前 接口 是 一 个 点 到 点 接口 ， 我 们 就 用 ioct1 的 SIocGIFDSTADDR 请 求 
取得 它 的 链 路 对 端 耳 地址。 








477—478 


123-133 ”这 是 IPv6 的 情形 ， 这 上 段 代 码 与 IPv4 情 形 的 类 似 ， 不 过 没 
有 SIOCGIFBRDADDR， 因 为 IPv6 不 支持 广播 。 


图 17-11 给 出 的 是 free_ifi_info 国 数 ， 它 以 由 某 个 get_ifi_info 调 
用 返回 的 指针 为 参数 ， 释 放 先 前 为 这 个 调用 动态 分 配 的 所 有 内 存 空 间 。 


479 


legen ifi info. 


143 vois 

144 fres ifi info(sLrict if info &kifiti2ad) 

145 { 

146 struct if. into *ifi, *iflnext; 

117 for (ifi = ifihead; ifi !- NULL; ifi = ifinext) | 

146 if (ifi->ifi_ addr != MULL) 

145 fxoeciifi >ifi oddrl; 

156 if (ifi-»ifi b-zadd- !- MULL) 

151 tree j|lfi-»1fi broader), 

152 if (ifi-»ifi_dstaddrc !- NULL) 

153 froej;ifi-»ifi detadér) ; 

124 iFfinext = ifi--ifl next;  /* can't fetch izi next after freei! */ 
155 free(1fil: fe rre ifi irfo() irseit *j 
156 } 

157 } 


lbhigel afi inpo.e 














图 17-11 free ifi infoPKZk: 释放 由 get_ifi_info 动 态 分 配 的 内 存 空间 








17.7 ”接口 操作 


我 们 已 在 上 一 节 展 示 过 ，sIroc6IFcoNF 请 求 为 每 个 已 配置 的 接口 返 
回 其 名 字 以 及 一 个 套 接 字 地 址 结构 。 我 们 接着 可 以 发 出 多 个 接口 类 其 他 
请 求 以 设置 或 获取 每 个 接口 的 其 他 特征 。 这 些 请 求 的 获取 (get) 版 本 
(STOCGxxx) 通常 由 netstat 程 序 发 出 ， 设 置 (set) 版 本 (srocsxxx) 通 
常 由 ifconfig 程 序 发 出 。 任 何 用 户 都 可 以 获取 接口 信息 ， 设 置 接口 信息 
却 要 求 具备 超级 用 户 权 限 。 


这 些 请 求 接受 或 返回 一 人 ifreq 结 构 中 的 信息 ， 而 这 个 结构 的 地 址 
则 作为 ioct1 调 用 的 第 三 个 参数 指定 。 接 口 总 是 以 其 名 字 标 识 ， 在 ifreq 
结构 的 ifr_name 成 员 中 指定 ， 如 leg、1o6、pppg 等 。 


这 些 请 求 中 有 许多 使 用 套 接 字 地 址 结构 在 应 用 进程 和 内 核 之 间 指 定 
或 返回 具体 接口 的 人 P 地 址 或 地 址 掩 码 。 对 于 IPvV4， 这 个 地 址 或 掩 码 存放 
在 一 个 网 际 网 套 接 字 地 址 结构 的 sin_addr 成 员 中 ; 对 于 IPv6， 它 是 一 个 
IPV6 套 接 字 地 址 结构 的 sin6_addr 成 员 。 


SIOCGIFADDR 在 ifr_addr 成 员 中 返回 单 播 地 址 。 


SIOCSIFADDR 用 :ifr_addr 成 员 设置 接口 地 址 。 这 个 接口 的 初始 化 函 
数 也 被 调用 。 


SIOCGIFFLAGS 在 ifr_flags 成 员 中 返回 接口 标志 。 这 些 标志 的 名 字 
格式 为 IFF_xxx， 在 <net/if.h> 头 文件 中 定义 。 举 例 来 说 ， 这 些 标志 指示 
接口 是 否 处 于 在 工 状态 GrruP) ， 是 否 为 一 个 点 到 点 接口 
CIFF_POINTOPOINT) , Mm X HR) H (IFF BROADCAST) ， 等 等 。 
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SIOCSIFFLAGS 用 :ifr_flags 成 员 设 置 接 口 标志 。 
SIOCGIFDSTADDR 在 ifr_dstaddr 成 员 中 返回 点 到 点 地 址 。 


SIOCSIFDSTADDR 用 ifr_dstaddr 成 员 设置 点 到 点 地 址 。 


SIOCGIFBRDADDR 在 ifr_broadaddr 成 员 中 返回 广播 地 址 。 应 用 进程 
必须 首先 获取 接口 标志 ， 然 后 发 出 正确 的 请 求 : 对 于 广播 接口 
为 SIOCGIFBRDADDR， 对 于 点 到 点 接口 为 SITOCGIFDSTADDR。 














SIOCSIFBRDADDR ”用 ifr_broadaddr 成 员 设 置 广播 地 址 。 
SIOCGIFNETMASK ”在 ifr_addr 成 员 中 返回 子 网 掩 码 。 


SIOCSIFNETMASK ”用 ifr_addr 成 员 设 置 子 网 掩 码 。 





SIOCGIFMETRIC 用 ;ifr_metric 成 员 返 回 接口 测度 。 接 口 测度 由 内 核 
为 每 个 接口 维护 ， 不 过 使 用 它 的 是 路 由 守护 进程 routed。 接 口 测 度 被 
routed 加 到 跳 数 上 (使 得 某 个 接口 更 不 补 看 好 ) o 

SIOCSIFMETRIC 用 ifr_metric 成 员 设 置 接 口 的 路 由 测度 。 


本 节 讲 述 的 是 通用 的 接口 请 求 。 许 多 实现 中 都 加 入 了 其 他 的 请 求 。 





17.8 ”ARP 高 速 缓 存 操作 


ARP 局 速 缓存 也 通过 ioct1 函 数 操纵 。 使 用 路 由 域 套 接 子 (第 18 
Em) 的 系统 往往 改 用 路 由 套 接 字 访 问 ARP 高 速 缓存 。 这 些 请 求 使 用 一 个 
如 图 17-12 所 示 的 arpreq 结 构 ， 它 定义 在 尖 文 件 <net/if_arp.h> 中 。 





-Cnet arp h> 
wl rui m p -ey 1 
struct scckaddr arp pa: /* protoccl address */ 
struct ecckaddr — aro na /* hardware addrece */ 
int arn flags; /* flags */ 
}; 
Hdefine ATP INJSZ 0x01 /* entzy in use */ 
define ATF TOV 0x02 /* completec entry (hardware azdr valid) */ 
define ATF PERM 0x04 /* permanent entry */ 
4dcfinc ATP_CUSL OxOE /* publishcc cntry (ressond tor ctrcr host! */ , 
Ennert arp h> 




















图 17-12 ARP 高 速 缓存 类 ioct1 请 求 所 用 的 arpreq 结 构 


ioct1 的 第 三 个 参数 必须 指向 某 个 arpreq 结 构 。 操 纵 ARP 高 速 缓存 
的 ioct1 请 求 有 以 下 3 个 。 
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SIOCSARP “把 一 个 新 的 表 项 加 到 ARP 高 速 缓存 ， 或 者 修改 其 中 已 经 
存在 的 一 个 表 项 。 其 中 arp_pa 是 一 个 含有 IP 地 址 的 网 际 网 套 接 字 地 址 结 
构 ，arp_ha 则 是 一 个 通用 套 接 字 地 址 结构 ， 它 的 sa_family 值 
为 AF_UNSPEC，sa_data 中 含有 硬件 地 址 (例如 6 字 节 的 以 太 网 地 
HE) 。ATF_PERM 和 ATF_PUBL 这 两 个 标志 也 可 以 由 应 用 程序 指定 。 另 外 两 
个 标志 (ATF_INUSE 和 ATF_coM) 则 由 内 核 设 置 。 


SIOCDARP “从 ARP 高 速 缓存 中 删除 一 个 表 项 。 调 用 者 指定 要 删除 表 
项 的 网 际 网 地 址 。 


SIOCGARP ”从 ARP 高 速 缓存 中 获取 一 个 表 项 。 调 用 者 指定 网 际 网 地 
址 ， 相 应 的 硬件 地 址 (例如 以 太 网 地 址 〉 随 标志 一 起 返回 。 


只 有 超级 用 户 才能 增加 或 删除 表 项 。 这 3 个 请 求 通 闻 由 arp 程 序 发 








一 些 较 新 的 系统 不 支持 这 些 与 ARP 相 关 的 ioct1 请 求 ， 而 改 用 路 由 
套 接 字 执 行 这些 ARP 操 作 。 


注意 ioct1 没 有 办 法 列 出 ARP 高 速 缓存 中 的 所 有 表 项 。 当 指定 -a 标 
志 【〈 列 出 ARP 高 速 缓存 中 的 所 有 表 项 ) 执行 arp 命 令 时 ， 大 多 数 版 本 的 
arp 程 序 通 过 读 取 内 核 的 内 存 (/dev/kmem) 获得 ARP 高 速 缓存 的 当前 内 
容 。 我 们 将 在 18.4 讨 论 一 个 使 用 sysct1 做 到 这 一 点 的 更 简单 〈 且 更 
4) WTI, AX 文 个 方法 并 非 所 有 系统 上 都 可 用 。 


例子 : 输出 主机 的 硬件 地 址 


现在 使 用 我 们 的 get_ifi _info 函 数 返回 一 个 主机 的 所 有 IP 地 址 ， 旬 UN 
后 对 每 个 IP 地 址 发 出 一 个 SIocGARP 请 求 以 获取 并 显示 它 的 硬件 地 址 。 A 
序 如 图 17-13 所 示 。 











iocilprmac.c 





1 #@include "ur.pifi.t" 
2 finclude -nst/if arp.h» 


3 int 

4 maintince argo, char *^argv) 

5: 

6 int sockfd; 

? struct ifi irfo *-fi; 

8 wisigned char *ptr; 

9 etruct arprec zrcroqd; 

10 struct sockacdr in *ain; 

1i SCCKfü = Socket (AF_INET, SOCK DERAM, 0); 

12 ter (iti = qct_it: into\AF_INET, 0); ifi != NULL; iti = iti »iti rcxt) { 
13 print=(*ts: ", Sock ntop'ifi-sifi &dZr, sizecf (struct sockaddr_ini)); 
14 Sir = (struct sockaddr in *| &àrpreq.arp pa; 

15 memcpv(sin, ifi >iti_addr, Sizcof(struct soc«add- ir); 
16 if (ioctlizockfd, sIOZGARP, &arpreq! < 0) ( 

1* err ret("ioccl SIOCGARP"), 

18 cortinue; 

19 ) 

20 pcr - &arpreq.arp ha,ea data/J]: 

ZI printz('*x:vx:6x:*x:txk: x n", *ptrz, *(ptr 1), 

<2 *(ptr+2). *(ptr«21], *iptr+d). *iper+5)); 

23 } 

24 exl:tí2); 

25 5 


iocil/pemac.c 


图 17-13 输出 一 个 主机 的 硬件 地 址 
获取 地 址 列表 并 过 历 每 个 地 址 


12 ”调用 get_ifi_info 获 取 本 主机 所 有 IP 地 址 ， 然 后 在 一 个 循环 中 
裔 历 每 个 地 址 。 


输出 IP 地 址 


13 ”使 用 inet_ntop 显 示 IP 地 址 。 我 们 要 求 get_ifi_info 仪 仪 返回 
IPv4 地 址 ， 因 为 IPv6 不 使 用 ARP。 


发 出 ioct1 请 求 并 检查 错误 
14~19 ”作为 一 个 IPv4 套 接 字 地 址 结构 在 arp_pa 中 填 入 IPv4 地 址 。 调 


用 ioct1， 大 返回 错误 〈 辟 如 说 所 提供 的 地 址 不 在 支持 ARP 的 系 个 接口 
E) 则 显示 相应 错误 消息 ， 并 继续 处 理 下 一 个 地 址 。 


输出 硬件 地 址 
20-22 ”显示 由 ioct1 调 用 返回 的 硬件 地 址 。 
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在 我 们 的 hpux 主 机 上 运行 本 程序 得 到 如 下 结果 : 


hpux % prmac 

192.6.38.100: 0:60:b0:c2:68:9b 
192.168.1.1: 0:60:b0:b2:28:2b 

127.0.0.1: ioctl SIOCGARP: Invalid argument 





17.9 ”路 由 表 操 作 


有 些 系 统 提供 2 个 用 于 操纵 路 由 表 的 ioct1 请 求 。 这 2 个 请 求 要 
求 ioct1 的 第 三 个 参数 是 指 回 某 个 rtentry 结 构 的 一 个 指针 ， 该 结构 定义 
在 <net/route.h> 头 文件 中 。 这 些 请 求 通常 由 route 程 序 发 出 。 只 有 超级 
用 户 才 能 发 出 这 些 请 求 。 在 文 持 路 由 域 套 接 字 (第 18 章 ) WRAP, X 
些 请 求 改 由 路 由 套 接 字 而 不 是 ioct1 执 行 。 
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SIOCADDRT ” 往 路 由 表 中 增加 一 个 表 项 。 
SIOCDELRT ”从 路 由 表 中 删除 一 个 表 项 。 
ioct1l 没 有 办 法 列 出 路 由 表 中 的 所 有 表 项 。 这 个 操作 通常 由 netstat 
程序 在 指定 -r 标 志 执 行 时 完成 。netstat 程 序 通 过 读 取 内 核 的 内 存 


(/dev/kmem) 获得 整个 路 由 表 。 与 ARP 高 速 缓存 的 列 示 一 样 ， 我 们 将 
在 18.4 节 讨论 一 个 使 用 sysct1 做 到 这 一 点 的 更 简单 〈 且 更 好 ) 的 方法 。 





17.10 小结 
用 于 网 络 编程 的 ioct1 命 令 可 划分 为 6 类 : 


套 接 字 操作 “〈 是 否 位 于 带 外 标记 等 ) ; 

文件 操作 《设置 或 清除 非 阻塞 标志 等 ) ; 
接口 操作 《返回 接口 列表 ， 获 取 广 播 地 址 等 ) ; 
ARP 表 操作 创建、 修改 、 获 取 或 删除 ) ; 

路 由 表 操 作 “〈 增 加 或 删除 ) ; 

流 系统 《第 31 章 ) 。 


我 们 将 使 用 其 中 的 套 接 字 操 作 和 文件 操作 ， 而 接口 列表 的 获取 是 一 
个 相当 第 用 的 操作 ， 我 们 为 此 开发 了 一 个 完成 本 操作 的 函数 。 在 本 书 以 
后 章节 我 们 会 数 次 使 用 这 个 函数 。 只 有 若干 个 特殊 用 途 的 程序 使 
用 ioct1 的 ARP 遍 速 绥 冲 操作 和 路 由 表 操 作 。 











习题 


17.1 ”在 17.7 节 我 们 说 过 ， 由 srI0C6GIFBRDADDR 请 求 返回 的 广播 地 址 
是 通过 ifreq 结 构 的 ijfr_broadaddr 成 员 返 回 的 。 然 而 查看 TCPV2 第 173 
页 ， 我 们 注意 到 它 是 在 ifr_dstaddr 成 员 中 返回 的 。 这 里 有 问题 吗 ? 


17.2 ”修改 get_ifi_info 图 数 ， 当 发 出 第 一 个 SIocGIFCONF 请 求 时 指 
定 缓冲 区 的 大 小 〈 由 ifconf 结 构 的 ifc_len 成 员 指 定 ) 为 只 能 容纳 1 
个 ifreq 结 构 ， 以 后 每 回 循环 时 指定 缓冲 区 的 大 小 为 新 增 1 个 ifreq 结 构 
的 容量 。 然 后 在 循环 体 中 增加 一 些 语句 ， 以 显示 每 回 发 出 请 求 时 指定 的 
缓冲 区 大 小 以 及 ioct1 是 否 返回 错误 ， 若 成 功 返 回 则 显示 返回 的 缓冲 区 
长 度 。 运 行 prifinfo 程 序 ， 查 看 你 自己 的 系统 在 缓冲 区 太 小 时 如 何 处 理 
这 样 的 请 求 。 对 于 由 ioct1l 返 回 的 其 地 址 族 并 非 所 期 望 值 的 任何 套 接 字 
ee 也 显示 其 地 址 族 值 ， 以 便 了 解 你 的 系统 返回 了 哪些 其 他 结 


17.3 ”修改 get_ifi_info 图 数 ， 如 果 某 个 接口 存在 别名 地 址 ， 而 且 
当前 正 处 理 的 别名 地 址 与 该 接口 最 近 处 理 的 地 址 ( 主 地 址 或 男 一 个 别名 
地 址 ) 不 在 同一 个 子 网 上 ， 那 么 也 返回 关于 当前 别名 地 址 的 信息 。 那 么 
17.6 节 中 的 版 本 忽略 从 206.62.226.44 到 206.62.226.46 的 别名 地 址 是 可 以 
接受 的 ， 因 为 它们 都 处 于 主 地 址 所 在 的 子 网 。 然 而 如 果 该 接口 又 一 个 别 
名 地 址 ( 壁 如 192.3.4.5) 不 在 同一 个 子 网 ， 那 么 修改 后 的 版 本 应 该 也 为 
该 别名 地 址 返回 一 个 ifi_info 结 构 。 


17.4 如 果 你 的 系统 支持 STocGIFNuUM ”ioctl1， 那 就 修改 图 17-7， 先 
发 出 这 个 请 求 ， 再 以 其 返回 值 作为 最 初 猜测 的 缓冲 区 大 小 。 
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第 18 革 MAERT 


18.4 概述 


内 核 中 的 Unix 路 由 表 传 统 上 一 直 使 用 iocti 命 令 访 问 。 我 们 在 17.9 节 
讲解 了 用 于 增加 或 删除 路 径 的 2 个 ioct1 请 求 : SIOCADDRT 和 SIOCDELRT。 
我 们 还 提 到 没有 ioct1 命 令 可 以 倾泻 出 整个 路 由 表 ， 相 反 ， 诸 如 netstat 
等 程序 通过 读 取 内 核 的 内 存 获 取 路 由 表 的 内 容 。 使 得 问题 更 为 复杂 的 再 
一 点 是 ， 诸 如 gated 等 路 由 守护 进程 需要 监视 由 内 核 收取 的 ICMP 重 定向 
消息 ， 它 们 通常 创建 一 个 原始 ICMP 套 接 字 (第 28 章 ) ， 再 在 这 个 套 接 
字 上 监听 所 有 收 到 的 ICMP 消 息 。 


4.3BSD Reno 通 过 创建 AF_ROUTE 域 对 访问 内 核 中 路 由 子 系统 的 接口 
做 了 清理 。 在 路 由 域 中 文 持 的 唯一 一 种 套 接 字 是 原始 套 接 字 。 路 由 套 接 
字 上 文 持 3 种 类 型 的 操作 。 


(1) 进程 可 以 通过 写 出 到 路 由 套 接 字 而 往 内 核发 送 消 轧 。 路 径 的 增 
加 和 删除 采用 这 种 操作 实现 。 


(2) 进程 可 以 通过 从 路 由 套 接 字 读 入 而 自 内 核 接收 消 恩 。 内 核 洒 用 
这 种 操作 通知 进程 已 收 到 并 人 处理 一 个 ICMP 乍 定 同 消 轧 ， 或 者 请 求 外 部 
路 由 进程 解析 一 个 路 径 。 


以 上 两 种 操作 可 以 复合 使 用 。 举 例 来 说 ， 进 程 通过 与 一 个 路 由 套 接 
字 往 内 核发 送 一 个 消 轧 ， 请 求 内 核 提 供 关 于 茶 个 给 定 路 径 的 所 有 信息 ， 
又 通过 读 这 个 路 由 套 接 字 接收 内 核 的 应 答 。 
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(3) 进程 可 以 使 用 sysct1 函 数 〈18.4 节 ) 倾泻 出 路 由 表 或 列 出 所 有 已 
配置 的 接口 。 


前 两 种 操作 需要 超级 用 户 权 限 ， 最 后 一 种 操作 任何 进程 都 可 以 执 
行 。 




















一 些 较 新 的 操作 系统 版 本 取消 了 打开 路 由 套 接 字 的 超级 用 户 权 限 要 
求 ， 转 而 仅仅 限制 改动 路 由 表 的 消息 需要 超级 用 户 权 限 才能 访问 。 这 样 
E CONUM NE 以 使 用 诸如 RTM_GET 之 类 的 消息 来 查找 
路 径 。 


从 技术 上 说 ， 第 3 种 操作 并 非 使 用 路 由 套 接 字 执行 ， 而 是 涉及 通用 
的 sysct1 函 数 。 然 而 我 们 将 会 看 到 ，sysct1 的 输入 参数 之 一 是 地 址 族 。 
对 于 本 章 讲解 的 第 3 种 操作 来 说 ， 这 个 参数 为 AF_RoUTE， 而 且 sysct1 返 
回 的 信息 与 内 核 通 过 路 由 套 接 字 返回 的 信息 有 相同 的 格式 。 实 际 上 在 
4.4BSD 内 核 中 ，sysct1 对 AF_ROUTE 地 址 族 的 处 理 是 路 由 套 接 字 代码 的 一 
部 分 〈TCPv2 第 632 一 643 页 。 


sysct1 工 具 首 先 出 现在 4.4BSD 中 。 不 幸 的 是 ， 并 非 所 有 支持 路 由 套 
接 字 的 实现 都 提供 sysctL。 举 例 来 说 ，AIX 5.1 和 Solaris 9 都 支持 路 由 套 
接 字 ， 然 而 两 者 都 不 支持 sysct1。 





18.2 ”数据 链 路 套 接 字 地 址 结构 


通过 路 由 套 接 字 返 回 的 一 些 消息 中 含有 作为 返回 值 给 出 的 数据 链 路 
套 接 字 地 址 结构 。 图 18-1 给 出 了 这 个 结构 ， 它 定义 在 <net/if_d1.h> 头 文 
件 中 。 


sLruct sockacdr dl ， 








uint? t sdl len; 

sa tamily t sadl family; /* AF LINK */ 

uinti t sdl index; /* system assigned index, if > 0 */ 

uint? t sdl tycze; /* IFT RTZRR, ect. fron «net/i^ types => a/ 
uint? t sdl nlen; /* name length, starting in scl cata[0] */ 
uints t sdl alen; /* link-layer address Length 4/ 

uints t sdl slen; /* link-layer selector length */ 

cnar sdl data[12]; /* minimum work area, can be larcer; 


contains i/f name and link-layer address */ 





图 18-1 数据 链 路 套 接 字 地 址 结构 


每 个 接口 都 有 一 个 唯一 的 正 值 索 引 ， 返 回 索引 的 手段 有 : 本 章 靠 后 
讲解 的 if_nametoindex 和 if_nameindex 函 数 ， 第 21 章 中 讲解 的 IPv6 多 播 
套 接 字 选项 ， 第 27 章 中 讲解 的 一 些 IPv4 和 IPv6 高 级 套 接 字 选项 。 


sdl_data 成 员 含 有 名 字 和 链 路 层 地 址 (例如 以 太 网 接口 的 48 位 MAC 
HHE) 。 名 字 从 sdl_data[6] 开 始 ， 而 且 不 以 空 字 符 结尾 。 链 路 层 地 址 
从 sdl_data[sdl_nlen] 开 始 。 定 义 本 结构 的 头 文件 定义 了 以 下 这 个 宏 以 
返回 指向 链 路 层 地 址 的 指针 。 


#define LLADDR(s) ((caddr_t)((s)->sdl_data + (s)-»sdl nlen)) 
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数据 链 路 套 接 字 地 址 结构 是 可 变 长 度 的 〈TCPv2 第 89 页 ) 。 如 果 链 
路 层 地 址 和 名 字 总 长 超出 12 字 节 ， 结 构 将 大 于 20 字 节 。 在 32 位 系统 上 ， 
这 个 大 小 通常 加 上 舍 入 到 下 一 个 4 字 节 的 倍数 。 我 们 还 将 在 图 22-3 中 看 
到 ， 由 IP_RECVIF 套 接 字 选项 返回 的 本 结构 中 ， 所 有 3 个 长 度 成 员 都 为 
0， 从 而 根本 没有 sdl_data 成 员 。 





18.3 HAAS 
创建 一 个 路 由 套 接 字 后 ， 进 程 可 以 通过 写 到 该 套 接 字 向 内 核发 送 命 








令 ， 通 过 读 自 该 套 接 字 从 内 核 接收 信息 。 路 由 域 套 接 字 共有 12 个 路 由 消 
息 ， 其 中 5 个 可 以 由 进程 发 出 。 饥 这些 消 息 定 义 在 <netvroute.h> 头 文件 


= 


如 图 18-2 所 示 。 


HEA HEAR? | 来 自 内 或 ? i , Mp m 
Hi Hie ie z subir 
RIM CHARGE PX. WERE rt mezhdr 
RTM_CELADDR Hd Ear WM AREE ifa rmgixi- 
RIM DELETE WE »t mezhdr 
RTM DELMADDR so Uh ui E mA RE d ifma_msghdr 
RLM GEL 报 洁 测度 及 其 他 路 径 读 总 zt mechdr 
RTM IPANNOUNCE He LERE H S ee B] i Sn if snrouncemsgkdr 
RTM_IFIMED 接口 正在 开工 .停工 等 if mschdr 
PTM LOCK BUES SE T) 3E =t_mschdr 
RTM_LOSING FY cope at fe 31 AC rt megadr 
RTM MISS Hi EL PETEA IK rt megdr 
BTM NEXADDR Si bb IESUS T EE DI iza mcahdr 
RTM_NEWMADDE 249 bh ak B EEC i fma_magielr 
BTM RECIRECT FY Bet D EOS A MEER AS xt ncqadr 
RTM_RESOLVE WARE H MS REDE RRR PEL | rt negadr 














图 18-2 ”通过 路 由 套 接 字 交 换 的 消息 类 型 
487 
通过 路 由 套 接 字 交换 的 结构 有 5 个 类 型 ， 如 图 中 最 后 一 列 所 


示 : rt_msghdr、if_msghdr、ifa_msghdr、 ifma_msghdr 和 
if_announcemsghdr， 上 具体 的 定义 如 图 18-3 所 示 。 








etrust rt megkdr { /* from <net/routa.n> v/ 


4 gshcrc rtm msc-sn; /* to skip over non-understcod messages */ 
4 char rtm version; /* future binary compatibility */ 
u char rtm tyre; /* message type */ 
i whorlb— rim index; /* index for associated ifp */ 
int rtm flags; /* flags, incl. kern & message, e.g., DONE */ 
int rim sdirs; J* hi-mask identifying sockada2rs in mag */ 
pid- rom pid; /* identify sender */ 
int rtm seq; /* for sender to identify action */ 
int rtm errn2,; /* why failed */ 
int rtm uss; /* from rtentry */ 
4 long rtm inits, /* which metrics ve are initializing */ 
struct r- mctricortm rnx; /* metrics themeclves */ 

ki 

ctruct it moqrdr { /* trom «net/iz.h» */ 
2 Bhcrt ifm meéc-aen; /* to skip over non-undersetcod messages */ 
4 Shar  izm version; /* future binary compatibility */ 
4 char ifm tyse; /* message typa */ 
int itm zdórs; /* like rtm ad3rs */ 
int i?m flags; /* value of if flags */ 
4 shcrt itm index; /* index for assccia-ed ifp */ 


struct if date ifm data; /* statistics and other data about if */ 


m 


struct ifa mschdr i /* from cnet. /i hs */ 
i) Shri inam magle Hu /[* to skip over oon-understcod messages ^/ 
4 zhar ifam versicn; /* future binary compatibility */ 
4 char ifem type; /* message type */ 
int ifam_addrs; /* like rtm_addrs +; 
int izam flags; /* value of ifa Elaga */ 
u shcrt ižem index; /* index for asscciated ifp "/ 
int itam metric; /* value of ifa metric */ 
hi 


ctrust itma mcatdr { /* from <net/it.h> */ 
4 Bhort izmam teglan; /* to skip over non-urderstood messaces */ 
4 char  izmam version; /* future binary compatibility */ 


4 Shar itmam_type; /* message typa */ 

int iZmam addrz; /* like rtm addrs */ 

int i*mam f:ags; /* value of ifa flags */ 

4 shcrt itmam in3ex; /* index for assccia-ed ifp */ 


Ji 


struct if_annpuncernsgidr { f^ fron «ue-/if.h» */ 


| short. i^an msglea; /* rà skip over aon-understoex messages */ 
u_char ifan versicn; /* futurs binary compatibility */ 

u_char ian types; /* message type */ 

1 shcrt ifan_indsx; /* index for asscciated ifp */ 

char iZan nane (IFNAMSIZ:; /* if name, e.g. "end" */ 

4 shcrt ifan_what, /* what type of announcement */ 


图 18-3 ”路 由 消息 返回 的 三 种 结构 
488 


每 个 结构 有 相同 的 前 3 个 成 员 : 本 消息 的 长 度 、 版 本 和 类 型 。 类 型 
人 一 列 中 的 常 值 之 一 。 长 度 成 员 人 允许 应 用 进程 跳 过 不 理解 
ERA 


rtm_addrs, ifm addrs/Zllifam addrsXX3| WM n EAM TER (bit 
mask) ， 指 明 本 消息 后 跟 的 套 接 字 地 址 结构 是 8 个 可 能 选择 中 的 哪 几 
个 。 图 18-4 给 出 了 在 <net/route.h> 头 文件 中 定义 的 可 用 于 逻辑 或 成 数位 











掩 码 的 各 个 常 值 及 具体 数值 。 


Mo ny 数组 下 标 


ZEE (OU 
常 值 数值 dH 
RTA DST RTAX DST 
RTA GATEWAY 2 | RTAX GATEWAY 
RTA NETMASK & | RIAX NETMASK 
RTA_GENMASK RTAX GENMASK 
RTA IFP i RTAX IFP 
RTA IFA RTAX IFA 
RTA AUTHOR RTAX AUTHOR 
RTA BRD RTAX BRD 
RTAX MAX 


o| a3 





目的 地 址 

网 关 地 址 

ba Hel 

v pe Herd 

KOEF 

接口 地 址 

qs np Ei oye 

V A ex H guh. 

| 最 大 元 素数 日 





CI pp 








图 18-4 在 路 由 消息 中 用 于 指称 套 接 字 地 址 结构 的 常 值 
当 存 在 多 个 套 接 字 地 址 结构 时 ， 它 们 总 是 按 表 中 所 示 的 顺序 排列 。 


例子 : 获取 并 输出 一 个 路 由 表 项 


下 面 举 一 个 使 用 路 由 套 接 字 的 例子 。 我 们 这 个 程序 作为 命令 行 参数 
取得 一 个 IPv4 点 分 十 进 制 数 地 址 ， 并 就 这 个 地 址 向 内 核发 送 一 
个 RTM_GET 消 息 。 内 核 在 它 的 IPv4 路 由 表 中 查找 这 个 地 址 ， 并 作为 一 
个 RTM_GET 消 息 "d 
机 freebsd 上 执行 如 下 命 


freebsd # getrt 206.168.112.219 
dest: .0 

gateway: 12.106.32.1 

netmask: .0 














那么 可 以 看 到 目的 地 址 使 用 默认 路 径 〈 默 认 路 径 在 路 由 表 中 的 目的 
IP 地 址 为 .0， 掩 码 为 0.0.0.0)〉 。 下 一 跳 路 由 器 是 主机 freebsd 接 入 因特网 
Mes 如 时 指定 主机 Treebsd 的 第 一 个 以 太 网 接口 所 在 子 网 为 目的 地 
行 如 下 命 


freebsd # getrt 192.168.42.0 
dest: 192.168.42.0 

gateway: AF LINK, index-2 
netmask: 255.255.255.0 


那么 目的 地 址 就 是 网 络 本 身 。 网 关 现 在 是 外 出 接口 ， 它 作为 一 
个 sockaddr_d1 结 构 返 回 ， 接 口 索引 为 2。 


489 
在 给 出 源 代码 之 前 ， 我 们 通过 图 18-5 展 示 写 到 路 由 套 接 字 的 信息 以 
及 由 内 核 返回 的 信息 。 


送 往 内 核 
的 绎 冲 区 


PET] 
ffo ae ntc 


rt msghdr() rt maghdr{} 


rtm type - rtm type - 
RTM GET 


RTM GET 


E fr; dz 


RTA DST 地 址 站 构 RTA DST 





IM AES" 
RTA GATEWAY 
地 址 结构 g 


j 25 eid 
de ,|RTA NETMASK 
矢 按 字 地 址 结构 


dr E tes Dn be oe 
克隆 的 HER ^ [RTA GENMASK 
地 址 结构 E 








图 18-5 ”RTM_GET 命 令 通过 路 由 和 套 接 字 与 内 核 交 换 的 数据 

















我 们 构造 一 个 绥 冲 区 : 以 一 个 rt_msghdr 结 构 开 涉 ， 后 跟 一 个 套 接 
字 地 址 结构 ， 其 中 含有 要 内 核查 找 的 目的 地 址 。rtm_type 
为 RTM_GET，rtm_addrs 为 RTA_DST〈 回 顾 图 18-4， 这 表示 那个 唯一 的 套 接 
字 地 址 结构 中 含有 目的 地 址 ) 。 本 命令 可 用 于 任何 内 核 为 之 提供 路 由 表 
的 协议 族 ， 因 为 符 碍 找 地 址 的 协议 族 包含 在 套 接 字 地 址 结构 中 。 








把 该 消息 发 送 给 内 核 后 ， 我 们 读 回 应 答 ， 其 格式 如 图 18-5 右 侧 所 
示 : 一 个 rt_msghdr 结 构 后 最 多 跟 4 个 套 接 字 地 址 结构 。 这 4 个 套 接 字 地 
址 结构 中 哪些 得 以 返回 取决 于 路 由 表 项 。 我 们 通过 检查 返回 的 
rt_msghdr 结 构 中 rtm_addrs 成 员 的 值得 悉 返 回 了 哪些 套 接 字 地 址 结构 。 
每 个 套 接 字 地 址 结构 的 协议 族 包含 在 sa_family 成 员 中 ， 对 于 刚才 那 两 
个 例子 ， 前 者 返回 的 网 关 是 一 个 IPv4 套 接 字 地 址 结构 ， 后 者 返回 的 网 关 
则 是 一 个 数据 链 路 套 接 字 地 址 结构 。 
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图 18-6 给 出 了 我 们 的 程序 的 前 半 部 分 。 


routege'ri.c 





1 #include "unproule. l" 

2 $de-ine BUFLEN  (sizeofistruct rt _məgadr) + #12) 

3 /* gizcot(otruct sockaddr iné! * 8 = 132 */ 
4 #define SES 9939 
& int 

6 main(int argc, char **argv] 


a4 


8 int sockÊd; 

a char *buf ; 

10 pida ct pid; 

11 ocizc t n: 

12 struct rt msghir *rtw; 

13 struct sockaddr *sa, *rti info[RTAX MAX]; 

14 struct sockaddr in "sin; 

15 it (axcc l= 2] 

16 zrr quit('usage: getr- «IPaddress»"'; 

17 sockfd = Socket AF ROUTE, SOCK RAW, 0!; /* need sureruser privileges A 
18 buf = Callcc(i, BHUFLEN!]; /* snd initialized to U */ 

19 rtm = (struct rt msqhdr +) buf; 

20 rtm-»-tm msgle3 = sizeof(stru-t rt_msghdr! + sizaof (struct socksdár i23); 
21 rtm-srtm_versicn = RTM VERSION; 

22 rtm-»rtm typa - RIM GET; 

25 rtm-2-tm aódrs ~ RTA_DST; 

24 rtm-»7tm pid = pid = getpidl]; 

25 rcm-»-tm ssq = SEQ; 

26 gin = (etruct zockaddr in *) (rzm + 1!; 

25 sin-zsin len = sizeofistruct sockaddr in); 

28 sin->sin_family = AF_INET; 

29 Inet pton|AF INET, argv[i], asin--ein addr) ; 

30 Wrize(socktd, rtm, rtm --tm nsalcn); 

31 do { 

a2 n s Rewd(sockfd, rtm, BUFLEN); 

33 ) while (rtm-»rtw zype !- RIM GIT || rem-sxrem sez !- sa | | 
34 rzn-»rtm pid |=- zid); 


route/getri.c 

















图 18-6 ”通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 前 半 部 分 


ng 








1-3 unproute.h 头 文件 以 #include 伪 代码 包含 一 些 必 需 的 头 文件 ， 
最 后 是 unp.h 文 件 。 常 值 BUFLEN 是 我 们 分 配 来 存放 发 送 给 内 核 的 消息 和 
内 核 返 回 的 应 答 的 缓冲 区 的 大 小 。 该 缓冲 区 应 能 存放 一 个 rt_msghdr 结 
构 和 可 能 多 达 8 个 的 套 接 字 地 址 结构 (能 够 返回 的 最 大 数目 ) 。 既 然 一 
个 IPv6 套 接 字 地 址 结构 的 大 小 是 28 个 字 节 ，512 字 节 空 间 足 以 存放 这 么 
多 套 接 字 地 址 结构 。 


创建 路 由 套 接 字 


17 ”创建 一 个 AF_ROUTE 域 的 原始 套 接 字 ， 如 前 所 述 ， 这 一 步 可 能 需 
要 超级 用 户 权 限 。 


填写 rt_msghdr 结 构 





18~25 ”分 配 一 个 缓冲 区 并 初始 化 为 0。 在 该 缓冲 区 上 构造 一 
个 rt_msghdr 结 构 ， 填写 我 们 的 请 求 ， 并 存放 我 们 的 进程 ID 和 选 定 的 序 
列 号 。 我 们 将 在 读 取 的 应 答 中 匹配 这 些 值 ， 以 寻找 正确 的 应 答 。 


以 目的 地 址 填写 网 际 网 套 接 字 地 址 结构 

26~29 紧 跟 rt_msghdr 结 构 ， 我 们 构造 一 个 sockaddr_in 结 构 ， 其 中 
含有 要 内 核 在 其 路 由 表 中 和 碍 找 的 目的 IPv4 地 址 。 我 们 仅仅 设置 地 址 长 
度 、 地 址 族 和 地 址 本 里 。 


write 消息 到 内 核 并 read 应 答 








30-34 write 构造 好 的 消息 到 内 核 并 read 回 应 答 。 既 然 其 他 进程 也 
可 能 打开 路 由 套 接 字 ， 而 且 内 核 给 所 有 路 由 套 接 字 都 传送 一 个 全 部 路 由 
消息 的 副本 ， 于 是 我 们 必须 检查 消息 的 类 型 、 序 列 号 和 进程 ID， 以 确保 
收 到 的 消息 正 是 我 们 所 等 待 的 应 答 。 


本 程序 的 后 半 部 分 在 图 18-7 中 给 出 。 这 一 半 会 处 理应 答 。 





= roule/getri.c 


35 rm = istrucr rt neg^dv *) buf: 

36 sa = (struct sockaddr *) i-tm + 1); 

a? gat rcaddrEe(rtm-»rtüm addre, sa, rti info}; 

38 1f ( (sa = rti_info(RTAX_DST]) != NULZ) 

39 printz(*dect: te\n", zock ncop host(ca, za-»2a len!): 
40 iE ( (sa = zti iafS[3TAX SGATEWAY]) !- NULL) 

41 princt(*gaceway: s\n", Scck ntop hoet(sa, sa--sa len)]; 
42 if ( (sa = rti_info[HlAX_MEIMASK]) l= NULL) 

43 prinrf(*nennask: &s\n", Scck masktopí(ss, sa-»5a len):; 
94 if ( (sa = xti_info (RTAX_SENMASK] ) t= NULL) 


printt(*genmasx: %s\n", Scck_masktop(sa, sa-»sa len)'; 
46 exirí3): 


roule geri. 





图 18-7 ”通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 后 半 部 分 


35-36 rtm 指 癌 rt_msghdr 结 构 ，sa 指 问 接 在 其 后 的 第 一 个 套 接 字 地 
址 结构 。 


37 rtm_addrs 是 一 个 数位 掩 码 ， 指 出 接 在 rt_msghdr 结 构 之 后 的 是 8 
个 可 能 的 套 接 字 地 址 结构 中 的 哪 几 个 。get_rtaddrs 函 数 〈 接 着 给 出 ) 
以 该 掩 码 和 指向 第 一 个 套 接 字 地 址 结构 的 指针 (sa) 为 参数 ， 
在 rti_info 数 组 中 填 入 指向 相应 套 接 字 地 址 结构 的 指针 。 假 设 图 18-5 所 
示 的 J 4 个 套 接 字 地 址 结构 都 被 内 核 返 回 ， 结 果 rti_info 数 组 将 如 图 
18-8PT AN o 














V BER |) 
ms px 





rt msghdr() 
















ztm type = 
RTM GET 


rti info[RTAX DST] 

rti info[RTAX GATEWAY] 
rti info[RTAX NETMASK] 
rti info[RTAX GENMASK] 
rti info[RTAX IFP! 

rti info[RTAX TFA) 

rti info[RTAX AUTHOR] 
rti info[RTAX BRD! 





Ede 
地 址 结构 


网 关 套 接 字 
坏 址 结构 


fi dct 4s ny 
Hi he Hg 


si Pa Se HERE 
Ebr kg 





图 18-8 get_rtaddrs 函 数 填 写 的 rti_info 结 构 


然后 我 们 的 程序 会 过 查 rti_info 数 组 ， 对 其 中 所 有 非 空 指针 执行 想 
做 的 处 理 。 


38-45 ” 耕 存 在 则 逐个 显示 4 个 可 能 的 地 址 。 显 示 目 的 地 址 和 网 关 地 
址 使 用 sock_ ntop_hostE 函数 ， 显 示 两 个 掩 码 使 用 sock_ masktop Ff PRX. d 
们 稍 后 给 出 这 个 新 函数 。 


图 18-9 给 出 的 是 图 18-7 中 调用 的 get_rtaddrs 函 数 。 





librotite/gel_naddrs.c 





1 &irclYuce "unproput e h" 
2 3X 
* Rcurd uo ‘a’ so next multiple of 'sisc , which must bc a powcr ot 2 
a me 
5 #defins xOUM-U2ia, size) (;(al & (isizge)-2); ? (1 + (4a) | ((size)-1)!) : (aps 
e /* 


7 * Step to next socket adiresa structure; 
& * if sa ie is J, assume it is sizenf(u -cng] - 


»- “3g 

10 #dcranc NEXT_SA\ap! ap = ISA *, \ 

11 ((ca3dr t! ap + (ap-»sa len ? ROUNDUP(&p-»sa len, sizeof iu_lons)) : ^ 
12 sizsofíu long!)! 

1i void 


14 get rtadirs'int addrs, SA *za, cA **rti info) 


le int i; 

17 for (i 0; i < RTAX MAX: i++) ( 
16 if 'addrs & (1 ss i)] | 

19 rti info[i] = Ra! 

20 NEXT Sales); 

21 } else 

22 rti info[i] = NULL; 

23 } 

24 } 


librowte/get riadars.c 


图 18-9 构造 指向 路 由 消息 中 各 个 套 接 字 地 址 结构 的 指针 数组 
过 历 8 个 可 能 的 指针 


17-23 ”图 18-4 中 RTAX_MAX 值 为 8， 它 是 内 核 在 单个 路 由 消息 中 能 够 
返回 的 套 接 字 地 址 结构 的 最 大 数目 。 本 函数 中 的 循环 查看 图 18-4 中 8 
个 RTA_xxx 数 位 掩 码 常 值 中 的 每 一 个 ， 而 图 18-3 中 3 种 结构 的 
rtm_addrs、ifm_addrs 或 ijfam_addrs 成 员 都 用 于 返回 数位 掩 码 。 如 果菜 
位 被 置 ，rti_info 数 组 中 对 应 的 元 素 就 被 设置 为 指 癌 相应 套 接 字 地 址 结 
构 的 指针 ， 人 否则 该 数组 中 对 应 的 元 素 被 设置 为 空 指针 。 


步 入 下 一 个 套 接 字 地 址 结构 


2-42 ” 套 接 字 地 址 结构 是 可 变 长 度 的 ， 不 过 这 段 代 码 假 设 每 个 结构 
都 有 一 个 指明 自身 长 度 的 sa_len 成 员 。 这 里 有 两 件 麻烦 事情 必须 处 理 。 
首先 ， 网 络 掩 码 和 克隆 掩 码 这 两 个 撼 码 可 以 通过 sa_1len 成 员 值 为 0 的 套 
接 字 地 址 结构 中 人 返回， 然而 这 种 结构 实际 上 占用 一 个 unsigned ”long 的 
Ky). (TCPv2 第 19 章 讨论 了 4.4BSD 路 由 表 的 克隆 特性 。) 这 种 结构 值 
表示 所 有 位 全 为 0 的 掩 码 ， 我 们 早先 的 例子 中 把 默认 路 径 这 样 的 网 络 掩 
码 显 示 成 .0。 其 次 ， 每 个 套 接 字 地 址 结构 可 在 末尾 增添 填充 字 节 ， 使 得 

















下 一 个 结构 从 特定 的 边界 开始 ， 对 于 本 例子 就 是 一 个 unsigned 
大 小 〈 辟 如 在 32 位 体系 结构 中 就 是 一 个 4 字 市 的 边界 ) 。 尽 管 





long 的 


sockaddr_in 结 构 因 占据 16 个 字 节 而 不 需要 填充 ， 掩 码 却 往往 会 在 末尾 


HURTS. 


我 们 尚未 给 出 的 本 示例 程序 的 最 后 一 个 函数 是 图 18-10 中 的 


sock masktop; 它 返 回 可 通过 路 由 套 接 字 返 回 的 那 两 种 掩 码 的 表达 字符 





串 。 掩 码 存放 在 套 接 字 地 址 结构 中 。 掩 码 的 套 接 字 地 址 结构 


其 sa_family 成 员 没 有 定义 ， 但 是 对 于 32 位 的 IPv4 掩 码 其 sa_len 成 员 可 能 
取 什 0、5、6、7 或 8。 当 这 个 长 度 大 于 0 时 ， 真 正 的 掩 码 离 起 点 的 偏 移 和 
IPVv4 地 址 在 sockaddr_in 结 构 中 离开 头 的 偏 移 一 样 ， 都 是 4 个 字 节 (如 

TCPv2 第 577 页 图 18-21 所 示 ) ， 也 就 是 通用 套 接 字 地 址 结构 的 s_data[2] 





成 员 。 
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1 include "urproJjte.:i 


2 conct char * 
3 socx_masktop(S& *sa, socklen t salen) 


a 
5 static char str [METS ADDESTRLEN] ; 


6 unsigned char *ptr - &sa-»sa& 3ata[2], 

7 if (sa-*sa len == D) 

8 return(*0,2.0.2"!; 

9 else if is&-2s5 len «= 5| 

10 snprint fis r, sizeof latr), "3130.0.0.0", *otr); 

11 else if !Sas-5s8 len == 6} 

12 snprintf(szr, aizcof(str), "td.td.0.C", “ptr, *iptz41)]; 
13 else if (52-2525 len == 7! 

14 snprintf(s-r, sizeofí(str), "*d.*d $4 0", ptr, *(prr+]), 
15 * (ppr«z)) 

16 else if !85-2833 len == 6) 

17 snprintf(s-r, sizeof (str), "4d.td.td.s3", 

18 "ptr, *(ptrel), *(rtr42), *iptr+3)); 

19 eles 

20 enprintfí(szr. sizeof (atr), "(unknown mask, len = $d, family = $d)*, 
21 sa-»sa len, sa-»sa family): 


és raturnistr): 


libroute/sock maskton.c 


libroutz/sock imasktor.c 





图 18-10 ”把 一 个 掩 码 的 值 转换 成 它 的 表达 格式 


7-21 如 果 长 度 为 0， 隐 含 的 手 码 束 是 .0。 如 果 长 度 为 5， 就 只 存放 
32 位 掩 码 的 第 一 个 字 节 ， 其 余 3 个 字 市 的 隐 仿 值 为 0。 当 长 度 为 8 时 ， 掩 





码 的 所 有 4 个 字 市 都 被 保存 。 


本 例子 中 我 们 想 读 取 内 核 的 应 答 ， 因 为 应 答 中 含有 我 们 正在 查找 的 
信息 。 然 而 通常 情况 下 ，write 到 路 由 套 接 字 的 返回 值 会 告知 我 们 发 送 
给 内 核 命令 是 否 执行 成 功 。 如 果 我 们 只 需要 知道 发 送 的 命令 是 否 执行 成 
功 ， 那 么 可 以 在 打开 路 由 套 接 字 之 后 立即 以 SHuT_RD 为 第 二 个 参数 调 
用 shutdown， 以 防止 内 核发 送 应 答 。 举 例 来 说 ， 如 果 我 们 是 在 删除 一 个 
路 径 ， 那 么 write 返回 0 意味 着 成 功 ， 返 回 ESRCH 错 误 意 味 着 内 核 找 不 到 
这 个 路 径 〈TCPv2 第 608 页 ) 。 类 似 地 ， 当 增加 一 个 路 径 时 ，write 返 回 
EEXIST 错 误 意 味 着 与 这 个 路 径 一 致 的 路 由 表 项 已 经 存在 。 在 图 18-6 的 例 
子 中 ， 如 果 给 定 目 的 地 址 的 路 由 表 项 不 存在 〈 璧 如 说 该 主机 没有 设置 默 


认 路 径 ) ，write 将 返回 一 个 ESRCH 错 误 。 








18.4 sysctliEÍ[E 


我 们 对 路 由 套 接 字 的 主要 兴趣 点 在 于 使 用 sysct1 函 数 检 查 路 由 表 和 
接口 列表 。 创 建 路 由 套 接 字 〈 一 个 AF_ROUTE 域 的 原始 套 接 字 ) 需要 超级 
用 户 权 限 ， 然 而 使 用 sysct1 检 查 路 由 表 和 接口 列表 的 进程 却 不 限 用 户 权 
限 。 
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#include «sys/param.h» 
#include <sys/sysctl.h> 


int sysctl(int *name, u_int namelen, void *oldp, size_t *oldlenp, 
void *newp, size_t newlen); 








返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 











这 个 函数 使 用 类 似 简 单 网 络 管理 协议 (Simple Network Management 
Protocol, SNMP) 中 管理 信息 库 (management information base, MIB) 
的 名 字 。TCPv1 第 25 章 详细 讨论 SNMP 和 它 的 MIB。 这 些 名 字 是 分 层 结 
构 的 o 


name 参 数 是 指定 名 字 的 一 个 整数 数组 ，namelen 参 数 指定 该 数组 中 
的 元 素数 目 。 该 数组 中 的 第 一 个 元 系 指 定 本 请 求 定 癌 到 内 核 的 哪个 子 系 
统 。 第 二 个 及 其 后 元 素 逐 次 细 化 指定 该 子 系统 的 茶 个 部 分 。 图 18-11 展 
示 了 这 样 的 分 层 排 列 ， 以 前 3 级 使 用 的 一 些 常 值 作为 例子 。 








CTL_DEGIG  CTL EW CIL KEZN CTL_MACHDEP CTL NET C7L USER CIL VES  CTL WM 
RS er ys NE ~ 0 
= N 3 


mai i ^". 
T / ` a 
ERE i `N iias 
-一 ^ ~ 
P” ^ ie. 
y di M "- 


AF INST AF LINK AF ROUTE APT JINSPZC 


- 


lPPROIO CEP LIPPHOCO LENE 1P2ROTO -P IF?2ROTO TCE IPP2OTO DP 


x [ie oe xS a í s 





Te Fe FN 


图 18-11 sysct1 名 字 的 分 层 排列 


为 了 获取 某 个 值 ， 同一 个 供 内 核 存放 该 值 的 缓冲 
区 。oldlenp 则 是 一 个 值 -结果 参数 : 函数 被 调用 时 ，oldlenp 指 同 的 值 指 
定 该 缓冲 区 的 大 小 ; 函数 返回 时 ， 该 值 给 出 内 核 存 放 在 该 缓冲 区 中 的 数 
据 量 。 如 果 这 个 缓冲 区 不 够 大 ， 函 数 就 返回 ENOMEM 错 误 。 作 为 特 
mons ma c N 内 核 确 定 这 样 
的 调用 应 该 返回 的 数据 量 ， 并 通过 oldlenp 返 回 这 个 大 小 。 


为 了 设置 某 个 新 值 ，newp 参 数 指 同一 个 大 小 为 newlen 参 数值 的 缓冲 
区 。 如 果 不 准备 指定 一 个 新 值 ， 那 么 newp 应 为 一 个 空 指针 ，newlen 应 为 
0. 
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sysct1 的 手册 页 面 详细 叙述 了 可 使 用 该 函数 获取 的 各 种 系统 信息 ， 
有 文件 系统 、 虚 拟 内 存 、 内 核 限 制 、 硬 件 等 各 方面 的 信息 。 我 们 感 兴 趣 
的 是 网 络 子 系统 ， pun dem M ELE NET 来 指 
定 。 (CTL_xxx 和 常 值 在 <sys/sysct1l.h> 头 文件 中 定义 。) 第 二 个 元 素 可 以 
是 以 下 几 种 。 


AF_INET: 获取 或 设置 影响 网 际 网 协议 的 变量 。 下 一 级 为 使 用 某 

个 IPPROTO_xxx 常 值 指 定 的 具体 协议 。FreeBSD ”5.0 在 这 一 级 提供 了 
大 约 75 个 变量 ， 用 于 控制 诸如 内 核 是 否 应 该 产生 ICMP 重 定向 、 
TCP 是 否 应 该 使 用 RFC ”1323 选 项 、 UDP 校 验 和 是 否 应 该 发 送 等 特 
性 。 我 们 将 在 本 节 靠 后 给 出 sysct1 如 此 用 途 的 一 个 例子 。 

AF LINK: 获取 或 设置 链 路 层 信息 ， 壁 如 PPP 接 口 的 数目 。 

AF_ROUTE: 退回 路 由 表 或 接口 列表 的 信息 。 我 们 和 修 讲解 送 些 信 


AF_UNSPEC: 获取 或 设置 一 些 套 接 字 层 变量 ， 璧 如 套 接 字 发 送 或 接 
收 缓冲 区 的 最 大 大 小 ， 


当 name 数 组 的 第 二 个 元 素 为 AF_RoUTE 时 ， 第 三 个 元 素 〈 协 议 号 ) 总 
是 为 0 〈 因 为 AF_ROUTE 族 不 像 骂 如 说 AF_TNET 族 那样 其 中 有 协 议 ) ， 第 四 
个 元 素 是 一 个 地 址 族 ， 第 五 和 第 六 级 指定 做 什么 。 图 18-12 对 此 做 了 汇 


40 o 











i& [-HPv4 15 he PVs ARP REE ETE 









namel] amire hz | ”返回 接口 清单 





CTL NET CTL NET | 

1 AF ROUTE As ROUTE AF ROUTE 
0 0 ð 

3 AF INET A* INET 0 

4 NE^ RT DUMP NET RT FLAG3 NET RT IFLIST 
0 RIF LLINFO 0 








[18-12 ”sysct1 在 AF_ROUTE 域 返回 的 信息 


路 由 域 文 持 3 种 操作 ， 由 name[4] 指 定 。 (NET_RT_Xxxx‘ {EL 
fE<sys/socket. peu Neos ) 这 3 种 操作 返回 的 信息 通过 sysct1 调 
用 中 的 oldp 指 针 返 回 。oldp 指 辐 的 缓冲 区 中 含有 可 变数 目的 RTM_xxx 消 息 

(图 18-2) 。 


(1) NET_RT_DuMP 返 回 由 name[3] 指 定 的 地 址 族 的 路 由 表 。 如 果 所 指 
定 的 地 址 族 为 0， 那 么 返回 所 有 地 址 族 的 路 由 表 。 
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路 由 表 作 为 可 变数 目的 RTM_GET 消 息 返 回 ， 每 个 消息 后 跟 最 多 4 个 套 
接 字 地 址 结构 : 本 路 由 表 项 的 目的 地 址 、 网 络 掩 码 和 克隆 掩 码 。 
我 们 在 图 18-5 右 侧 展 示 了 一 个 这 样 的 消息 ， 而 图 18-7 中 的 代码 用 于 分 析 
这 样 的 消息 。 相 比 直接 读 写 路 由 套 接 字 的 操作 ， sysct1 操 作 所 有 改动 仅 
仅 体 现在 内 核 通 过 后 者 返回 一 个 或 多 个 RTM_GET 信 息 。 


(2) NET_RT_FLAGS 返 回 由 name[3] 指 定 的 地 址 族 的 路 由 表 ， 但 是 仅 限 
于 那些 所 带 标志 《若干 个 RTF_xxx 第 值 的 逻辑 或 ) 与 由 name[5] 指 定 的 标 
志 相 匹配 的 路 由 表 项 。 路 由 表 中 所 有 ARP 高 速 缓存 表 项 均 设 置 了 


RTF_LLINFO 标 志 位 。 
这 种 操作 的 信息 返回 格式 和 上 一 种 操作 的 一 致 。 


(3) NET_RT_IFLIST 返 回 所 有 已 配置 接口 的 信息 。 如 果 mname[5] 不 为 
0， 它 就 是 某 个 接口 的 索引 号 ， 于 是 仅仅 返回 该 接口 的 信息 。 我们 将 
在 18.6 节 讨论 接口 索引 。) 已 赋予 每 个 接口 的 所 有 地 址 也 同时 返回 ， 不 
过 如 有 果 name[3] 不 为 0， 那 么 仅 限 于 返回 指定 地 址 族 的 地 址 。 


每 个 接口 的 返回 信息 包括 一 个 RTM_IFINF0 消 息 和 后 跟 的 零 个 或 多 

















个 RTM_NEWADDR 消 息 ， 其 中 每 个 RTM_NEWADDR 消 息 对 应 已 赋予 该 接口 的 一 
个 地 址 。 接 在 RTM_IFINF0 消 息 首 部 之 后 的 是 一 个 数据 链 路 套 接 字 地 址 结 
构 ， 接 在 每 个 RTM_NEWADDR 消 息 首 部 之 后 的 则 是 最 多 3 个 套 接 字 地 址 结 
Kj: 接口 地 址 、 网 络 掩 码 和 广播 地 址 。 图 18-13 展 示 了 这 两 个 消息 。 
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[18-13 ”由 sysct1 的 cTL_NET/AF_ROUTE/NET_RT_IFLIST 命 令 返 回 的 信息 


例子 : 判断 UDP 校 验 和 是 否 开 启 


下 面 提供 一 个 sysct1i 的 简单 例子 ， 对 于 网 际 网 协议 检查 UDP 校 验 和 
否 开启 。 有 些 UDP 应 用 程序 (如 BIND) 在 启动 时 检查 UDP 校 验 和 是 
ice Mee a 试 开 启 。 当 然 开 启 诸如 此 类 的 特性 需要 超级 用 
ns 不 过 本 例子 仅仅 检查 这 个 特性 是 否 已 经 开启 。 图 18-14 给 出 了 
"EJ 








"atieichechdpsum.c 


1 finclu3e “unproute.h" 

2 #include enetinet /udp.h> 

3 finclude «netinet/ip var.h> 

4 #include enctinct/udp var. i> /* tor LD2CTL xxx constants */ 
5 int 

€ main(int argc, char **arew) 

3^4 

i int mib.1)], val; 

9 size t len; 

10 mib[O] = CIL NET; 

11 mib[1) = AR IMS; 

12 mib[27] = TFPROTO IMP; 

13 mib[3] = UDPCTI, CHECKSUM; 

14 len = sizeof (vall; 

15 Sysctl(mib, 4, &val, &len, NULL, 9); 
16 print=("ud> checksum flag: d\n", vali; 
17 exit {0} 

18 | 


ranie/chectndpsum.c 





图 18-14 ”检查 UDP 校 验 和 是 否 开启 
合 系 统 头 文件 


2~4 我们 必须 包含 <netinet/vudp_var .h> 头 文件 以 获得 sysct1 的 
UDP 和 名 值 定义 。 另 外 两 个 头 文件 是 本 头 文件 所 需 的 。 


调用 sysct1 


10-16 “静态 分 配 一 个 4 个 元 素 的 整数 数组 ， 并 存放 相应 于 图 18-11 
所 示 层 次 结构 的 各 个 常 值 。 既 然 仅仅 获取 一 个 变量 的 值 而 不 是 给 它 设置 
新 值 ， 我 们 指定 sysct1 的 newp 参 数 为 一 个 空 指针 ，mnewlen 参 数 为 0。oldp 
指向 一 个 我 们 提供 来 存放 结果 的 整数 变量 ，oldenp 指 同一 个 “ 值 一 结 
人 
1 GT). 
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18.5 get ifi inforA2W 


我 们 现在 返回 到 17.6 节 的 例子 : 作为 一 个 ifi_info 结 构 链表 返回 所 
有 在 工 〈 即 处 于 UP 状态 ) 的 接口 〈 图 17-5) 。prifinfo 程 序 保 持 不 变 
(图 17-6) ， 但 是 这 里 给 出 的 get_ifi_info 函 数 是 使 用 sysct1 实 现 的 版 
本 ， 它 取代 图 17-7 中 使 用 的 STOCGIFCONF ioct1 实 现 的 版 本 。 


我 们 首先 在 图 18-15 中 给 出 函数 net_rt_iflist。 该 函数 以 
NET_RT_IFLIST 命 令 调用 sysct1 返 回 指定 地 址 族 的 接口 列表 。 


libraeinei ri. Use 











1 #incluir "ur.prouLe , zi" 

2 char * 

j nost rt iflist(int Eamily, int tlacs, Sáíze t *lcncj 

4 1 

5 iat mib[6] ; 

6 caar "buf; 

7 mib[0] = CTL NET; 

8 mib[1] = AP ROUTE; 

9 mib[2] = ð; 

10 mib[3] ~ family: /* only addresses oË this family */ 
1 mib[4] = NBT RT IPLIST: 

12 mib[5] = flags; /* inter?ece index cr 0 */ 
13 if (syscrl(míb, 5, NULL, lenp, NULL, 0) < 0; 

1 return (NULL) ; 

15 iE ( (buf = mallcc(*lenpl) == NULL) 

16 return (tits); 

17 if (sysctlimib, 5, buf, lenp, WLL, 0} < 0) ( 

18 free (buf) ; 


19 return (NULL) ; 


return ibuf);: 


librone/nei vi iflisi.c 























图 18-15 “调用 sysct1 返 回 接口 列表 


7-14 如 图 18-12 所 示 ， 我 们 把 数组 mib 初 始 化 成 用 于 返回 接口 列表 
以 及 每 个 接口 已 配置 的 指定 地 址 族 的 地 址 。 然 后 调用 sysct1 两 次 。 第 一 
次 调用 时 指定 第 三 个 参数 为 空 指 针 ， 从 而 lenp 指 癌 的 变量 中 将 返回 存放 
所 有 接口 信息 所 需 缓 冲 区 的 大 小 。 


15-21 动态 分 配 这 个 缓冲 区 并 再 次 调用 sysct1， 这 次 指定 第 三 个 
参数 为 指 疝 新 分 配 缓冲 区 的 一 个 指针 。 这 次 lenp 指 向 的 变量 将 返回 存放 











在 缓冲 区 中 的 信息 量 ， 而 这 个 变量 是 调用 者 分 配 的 。 指 问 这 个 缓冲 区 的 
旨 针 则 作为 函数 返回 值 返 回 给 调用 者 。 


500 
既然 路 由 表 的 大 小 和 接口 的 数目 可 能 在 两 次 sysct1 调 用 之 间 发 生变 
化 ， 第 一 次 调用 的 返回 值 实际 含 有 一 个 10% 的 余 量 因子 〈TCPv2 第 639 一 
64071) . 


图 18-16 给 出 了 get_:ifi_info 函 数 的 前 半 部 分 。 


1 #include "ugpifi.h' 


rowiege! Ui info.c 


2 #inclnàe "unpraut e ,hn 

3 Szruct ifi info * 

4 qct ifi info(:nt family, int doaliacec) 

5 { 

6 int flags; 

7 char *but, *nex=, "lim; 

8 size_t len; 

9 struct if msghdr*ifm; 

16 struck ifa meagidr ^i fam; 

11 struct sockaddr tsa, *rti info[RTAX MAX]; 

12 struct sockaddr dl  *sdl; 

13 struct ifi_anfc *ifi, *ifisave, *ifihead, **ifipnext: 
14 buf = ret rt. if^ is (Family, 0, Alant; 

15 ifihead » NULL; 

16 irzipnext = &ifihead; 

T lim - buf + len; 

18 far (next = buf; next < lim; next. += ifm-»ifu msclen! i 

19 ifr = (struct if mschdr +*+) next: 

20 if ;ifm-»ifm type == 4IM LFINSY) 

21 if | i(flags = ifm »ifn flags! & IFF UP) == 0) 

22 oat inue; /* ignore if interface mol up */ 
23 sa æ (struct sockalir s) (ifm « 11; 

24 gez rtadárs(ifm-»if" addrs, sa, rti info); 

25 it | (sa = rti into[PTAX IFP}) !- NULL) { 

26 ifi = Callec(], sizeoE!stzuct ifi_info)); 

7 *ifipnext = ifi; /* prev points to this new one */ 
25 ifipnext. = &ifi-»ifi aext: /* ptr to next. one goes here */ 
29 ifi-»ifi flags = flags; 

30 if {sa->sa family -- AF LINK) { 

31 cdl = (etruct ccckaddr dl *; ea; 

32 ifi -i-i index = sdl »sdl index: 

35 if í/sdl--sdl rlen > 0i 

34 snprintfíifi-»i^i name, IFI NAME, "'3*5*, 
35 $d1-»$21 nlen, &sdl--sd1 2ata[9]]; 
i6 else 

7 Sniprintt (ifi >i21 namc, IFI NAME, ‘index d", 
30 sdl-2s3l :rdex); 

39 if | (ifi-sifi_nien = sdl-»sdl ale3) > M 
46 wericpy:ifi-»ifi haddr, LLADDR isl), 

al winiIFI_HRDOR, azdl-*sdl aien)); 
42 ) 

45 ) 


[18-16 get ifi infor ZB E UA 


e-14 ”声明 局 部 变量 ， 然 后 调用 net_rt_iflist 函 数 。 


romege! 历 mfo.c 


17-19 ”for 循环 遇 查 由 sysct1 返 回 并 填写 到 缓冲 区 中 的 每 个 路 由 消 





息 。 我 们 假定 消息 是 一 个 if_msghdr 结 构 ， 再 查看 其 ifm_type 成 员 。 CGE 
意 所 有 3 种 路 由 消息 结构 的 前 3 个 成 员 是 相同 的 ， 因 此 用 这 3 种 结构 中 的 
哪 一 种 来 查看 类 型 成 员 并 无 分 别 。) 





检查 接口 是 人 否 在 工作 


20-22 ” sysctl 已 为 每 个 接口 返回 一 个 RTM_IFINF0O 结 构 。 如 果 当 前 接 
口 不 在 工作 (处 于 DOWN 状 态 ) ， 那 就 忽略 它 。 


判断 存在 哪些 套 接 字 地 址 结构 


23-24 sa 指 回 if_msghdr 结 构 之 后 的 第 一 个 套 接 字 地 址 结 
构 。get_rtaddrs 函 数 将 根据 出 现 哪些 套 接 字 地 址 结构 初始 化 rti_info 数 
ZH. 


处 理 接 口 名 字 


25-43 ”如 果 出 现 携带 接口 名 字 的 套 接 字 地 址 结构 ， 那 就 动态 分 配 
一 个 ifi_info 结 构 并 存放 接口 标志 。 这 个 套 接 字 地 址 结构 的 预期 地 址 族 
为 AF_LINk， 表 示 它 是 一 个 数据 链 路 套 接 字 地 址 结构 。 我 们 把 其 中 的 接 
口 索 引 存 放 到 ifi_index 成 员 。 如 果 sdl_nlen 成 员 不 为 0， 那 就 把 接口 名 
字 复 制 到 ifi_info 结 构 ; 否则 把 接口 索引 字符 串 作 为 接口 名 字 存 放 。 如 
果 sdl_alen 成 员 不 为 0， 那 就 把 硬件 地 址 《譬如 以 太 网 地 址 ) 复制 
到 ifi_info 结 构 ， 其 长 度 则 在 ifi_hlen 中 返回 。 


图 18-17 给 出 了 get_ifi_info 函 数 的 后 半 部 分 ， 用 于 返回 当前 接口 的 
IP 地 址 。 

















ronicege! t mfoc 





44 ) else it (itm-»itm type -- RTN NEWADDR) < 

45 if (ifi-»ifi addr) {  /* already Lave an LP addr fcr i/f */ 
96 if (doaliases -- 6; 

a? -Continue; 

48 /*" we have a new IP addr tor cxioting inzertace */ 
29 ztieavs = ifi; 

EU ifi = calloc(}, sizsof;struct ifi info)]; 

bl *ifirznex- = ifi; /* prev rzointe to this new cne */ 
52 ifipnext - &ifi->iži next; /* ptr zo next ore gces nere */ 
53 ifi-»-fi flags = i-isave-»ifi flags; 

54 ifi->ifi index = ifisave--ifi index, 

as ifi-sifi hlen = ifisave-»ifi hlen: 

56 mencyylifi->ifi_nama, ifisave->ifi nam, TFT NAME); 

a7 men:y(ifi-»if i hadir , ME Rave» ELI addr, T*T HADnDR]; 
58 J 

a9 ifam = (struct ifs_mschdr ^) next: 

EQ ga = [struct sockaddr *) (ifam + 1); 

EL gqet_rtaddrsiifam-sifan_addrs, sa, rti info); 

€2 if ( {sa = rti_info[RTAX_IPA]i !- NULL) { 

EA ifi-s:fi addr = Calloc{1, sa-»sa len); 

64 memcczv(ifi-»ifi addr, ea, 8&a-»8a len); 

és } 

€6 if ((flags & TFF_BROADCAST)&&(sa = rti -rfc'RTAX BRD.) ! -ITI:)| 
ET ifi-»-fi brdaddr = Callcc(1, sa-»sa le:]; 

Eg meuczv(ibi-»ifi brdaddr, sa, sa->sa len); 

c9 ) 

70 if ((flags & IFF POINTOFOINT) && 

2i (sa = rti info[RTAX BRD]) != NULL) : 

V2 ifi->:fi_detaddr = vtallce(1, s&a-»sa len]; 

73 memery (ifi ->ifi dstaddr, sa, sa »sa len]; 

74 ) 

75 ) else 

56 err quit ("unexpected message type td", :fm-»ifm type'; 

7? i 

78 /* "ifihead" points to the first structure in the linked list */ 
72. return |ifiheed) ; /* pcr to first structure in linked list */ 
EO : 


rouiegel ii infot 


[18-17 get_ifi_info 函 数 后 半 部 分 
返回 IP 地 址 


44-65 ” sysctl 已 为 当前 接口 每 个 已 配置 地 址 返回 一 个 RTM_NEWADDR 
消息 ， 包 括 主 地 址 和 所 有 别名 地 址 。 如 果 当 前 接口 在 其 ifi_info 结 构 中 
的 IP 地 址 已 经 填写 ， 我 们 就 知道 当前 处 理 的 是 一 个 别名 地 址 。 这 种 情况 
下 如 果 调 用 者 想 要 别名 地 址 ， 我 们 就 得 再 分 配 一 个 ifi_info 结 构 ， 复 制 
已 经 填写 的 字段 ， 然 后 填 入 当前 处 理 的 别名 地 址 。 


返回 广播 地 址 和 目的 地 址 
66~75 “如 宁 当 前 接口 文 持 广播 ， 那 就 返回 其 广播 地 址 ， 如 有 果 当 前 














接口 是 点 对 点 接口 ， 那 就 返回 其 目的 地 址 。 


501~503 


18.6 ”接口 名 字 和 索引 函数 


RFC 3493 [Gilligan et al. 2003] 定义 了 4 个 处 理 接口 名 字 和 索引 的 
函数 。 这 4 个 函数 用 于 需要 描述 一 个 接口 的 场合 ， 并 且 是 为 IJPv6 — APISI 
入 的 ， 不 过 也 适用 于 IPvV4 API。 我们 将 在 第 21 章 介绍 IPv6 多 播 和 在 第 27 
章 介 绍 IPv6 选 项 时 讲解 它们 的 用 途 。 这 里 存在 一 个 基本 概念 ， 即 每 个 接 
口 都 有 一 个 唯一 的 名 字 和 一 个 唯一 的 正 值 索 引 〈0 从 不 用 作 索 引 ) 。 


#include «net/if.h» 





unsigned int if nametoindex(const char *ifname); 


返回 : 若 成 功 则 为 正 的 接口 索引 ， 若 出 错 则 为 9 























char *if indextoname(unsigned int ifindex, char *ifname); 


返回 : 若 成 功 则 为 指向 接口 名 字 的 指针 ， 若 出 错 则 为 NULL 

















struct if nameindex *if nameindex(void); 





返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 





void if freenameindex(struct if nameindex *ptr); 





if nametoindek [n 44 ^£ 7Jifnamel) Be L1] 284]. if_indextonamei& 
回 索引 为 ifindex 的 接口 的 名 字 。ifname 参 数 指向 一 个 大 小 为 IFNAMSIz 的 
绥 冲 区 该 第 值 在 <net/if.h> 头 文件 中 定义 ， 如 图 17-2 所 示 〉， 调 用 者 
和 


if_nameindex 返 回 一 个 指 疝 if_nameindex 结 构 数 组 的 指针 ， 该 结构 
定义 如 下 。 
struct if_nameindex { 
unsigned int if_index; FPA E A 


char *if_name; /* null terminated name: "leO", ... */ 


}; 








该 数组 最 后 一 个 元 素 的 if_index 成 员 为 0，if_name 成 员 为 空 指 针 。 
该 数组 本 映 以 及 数组 中 各 个 元 素 指 同 的 名 字 所 用 的 内 存 空 间 由 该 函数 动 
态 获取 ， 然 后 由 if_ freenameindex 函 数 归 还 给 系统 。 


下 面 使 用 路 由 套 接 字 给 出 这 4 个 函数 的 一 个 实现 。 


504 


18.6.1 if nametoindexrK ZW 


118-1823 HH I] 4e if. nametoindexbK ZA. 


libroniesif nemetoindex.c 
1 #include "urpi fi i" 
2 finclude *"urprocte.n' 


3 unciqned irt 
4 i£ namezoirdex(ccnst char *name) 


5 

6 unsigned int idx, narelen; 

7 enar *buf, "next, “Lim; 

8 size t len; 

E struct if _mschir ifm; 

iù strucz sockacdr *s3, *rti info[kTAX MAX]; 

ti struct sockacdr 3. *sdl; 

12 i£ ( (buf = ret rt iflis-!0, G, &leanl! == NULL) 

13 rerurn (0) ; 

14 nanelen ~ strlen (nama); 

15 lin = buf + len: 

16 fcr ‘next = buf: next < lim; next += ifm-»i£m wsglen! | 
17 ifm = (strict 1f msgh?r *) next; 

18 it (izm-»itn type == RTM IFINFO! [ 

19 sa = [struct socksddr *) (ifm + 1'; 

20 get rtaddrasiifm-»itm addrs, sa, rti info); 

ai if ( [sa = rti info[RTIAX IF2]! 1= NULL) ( 

z2 it (sa->sa_tamily ==» AF LINX) | 

z3 adl - (struct s3ckacdr dl *' ss; 

24 if (sdl-~sdl_nlen == namelen 

25 SE strnomp(ksedl.-»5dl data[ut;, rare, 
z6 tdl »sdl nien) == 0) { 
27 idx = sill->sdl_index; /* save before [ree!) */ 
z8 free(buf]; 

29 returr. (idx) ; 

20 } 

31 ) 

32 } 

3i ) 

24 i 

35 fresicu£f); 

a6 raturn i0); /* no match for name */ 
49 | 


libromie/if viometoindex.c 


图 18-18 给 定 接口 名 字 返 回 其 接口 索引 





获取 接口 列表 


12-13 ”我 们 的 net_rt_iflist 函 数 返回 接口 列表 。 
只 处 理 RTM_IFINF0 消 息 


17-30 ”处 理 缓冲 区 中 的 消息 (图 18-13) ， 仅 仅 查 找 RTM_IFINF0 消 
Mo 找到 一 个 后 调用 get_ rtaddrs 函 数 设置 指 癌 各 个 套 接 字 地 址 结构 的 
间 针 :如果 存 在 一 个 接口 名 字 结 构 〈 它 由 rti_info [RrAx 1rP] 指针 所 
指 ) ， 那 就 比较 其 中 的 接口 名 字 和 调用 者 指定 的 参数 。 





18.6.2 if indextonamerK ZW 


下 一 个 函数 ifindextoname 如 图 18-19 所 示 。 


lbronie if fadextonmarnte.c 





1 #incluie "urpifi." 

2 finclude "urproutae.n' 

3i char * 

4 if indextorame(unsigned int idx, char *name! 

5 1 

5 enar ‘buf, tnext, *:ím; 

7 SSS = den; 

8 stract if msohzr “ifr; 

9 s-ruc- sockaddr “sa, *rti_info[RTAX_MAM] ; 

10 strict sockaddr d! *sdl; 

11 if ( (buf - net rt iflistio, idx, &len)) -- NULL) 

12 return(NJL.); 

13 lim = buf + ler: 

14 fcr (next = buf; nex- c lim; next += ifm-»ifm mszlen! { 
15 im = struct if _iasghdr *) pexti: 

16 i= (ifm-»ifm type == ROM IFIN?D! [ 

17 Sa = [struct sockaddr *) (ifm + 1); 

ig get_rtaddrsiifm->ifm_addrs, ea, rti into); 

19 iz ( {sa = rti info[RTAX IF2]) !~ NULL) { 

z0 if [sa »5a family == AP LINX) | 

21 sdl = (s-ruct scckaddr dl +*+) sa; 

22 if !adl-»sdl iniex == idx) | 

23 int «ler. s mi 10i TFNAMETZ - 1, sdl ->80 nlen); 
25 strncoy(name, sdl--s2l data, slen); 
25 name[sien] = 9; /* null terminate */ 
i6 free (cut); 

a? return [naret ; 

28 } 

29 j 

30 ) 

21 ) 

32 ] 

33 freaibut); 

34 return (NULL) ; /* no match for index */ 

45-3 


libromejñf iadextonane.c 


图 18-19 给 定 接口 索引 返回 其 接口 名 字 





AS ERUIT BI — ARZULAR, POSER BE Ae BR TF, 
而 是 比较 接口 索引 和 由 调用 者 指定 的 参数 。 另 外 ， 调 用 net_rt_iflist 
函数 指定 的 第 二 个 参数 是 期 望 的 索引 ， 因 此 结果 应 该 只 含有 期 望 接口 的 
言 轧 。 找 到 匹配 的 接口 后 ， 复 制 并 返回 以 空 字符 结尾 的 接口 名 字 。 


505—506 





18.6.3 if nameindexrAZW 


下 一 个 函数 if_nameindex 返 回 一 个 if_nameindex 结 构 数组 ， 其 中 含 
有 所 有 的 接口 名 字 和 索引 对 ， 如 图 18-20 所 示 。 








—HlbrattieAof nameindex. c 





1 include “urpifi li" 

z #include "urproute.2' 

3 struct if rameindex * 

4 if nameindex(vo:d) 

sí 

6 caar  *buf, *rext, *lim; 

?3 size z len; 

& atriz if msghzr "if"; 

9 stract sockaddr "sa, *rti_info[RTAX MAX]; 

10 Struct sockacdr d.  *odl: 

1 struct if nameindex “result, “:fptr: 

12 chat *namp rz 

13 iE ( (buf = ret rt iflis={0, C, £len3]! == NULL) 

14 return (HULL) ; 

15 if ( (result = malloc;len)! =» NULL) /* overestimate */ 
16 return (NULL) ; 

17 ifptr = result; 

1a manate = (cher 4) result + Jer: /^ pares stars ab emi of buffer */ 
19 lin = buf + ler: 

20 fcr ‘next = buf; nex- < lim; next += ifm-»ifu mszlen! { 

21 iin = (struct if msjhór 4) next; 

a2 it (ifm-»ifm type -- RTM IFINFO! [ 

FE Oa = (struct cockaddr *") (itm :» 1); 

£4 get rtaddrsiifm--ifm addrs, sa, rti into); 

25 i= ( isa = rri info[RTAX rF2]) != NULL) ( 

26 if (sa->sa_family -- AF LINK) | 

27 zdl = (struct sockaddr_di *) 62; 

28 namper -- sdl--sdl_nien + 1; 

29 strncpyinemptr. &sdl-»sd] data[0], sd1-»sdl nlen]; 
40 natptr(edl->sdl nlen] = 0; /* null ternáinats */ 
31 itptr >it nàmc = nàmp-r; 

32 ifptr--if index = sál-»sdl index; 

33 ifptr-e; 

44 } 

35 } 

36 ) 

av } 

38 ifptr->if rame = NULL; /* mark end of array of structs */ 
39 ifptr-»if incex - D; 

jô frea ibu); 

4l raturniresult; ; /*» caller mst free() this when done */ 
42° 


libromeñf naineindex.c 


图 18-20 ”返回 所 有 的 接口 名 字 和 索引 
获取 接口 列表 ， 为 结果 分 配 空间 


13~18 ”调用 我 们 的 net_rt_iflist 函 数 返 回 接口 列表 。 我 们 还 把 由 
这 个 函数 返回 的 大 小 作为 分 配 一 个 缓冲 区 的 大 小 ， 该 缓冲 区 用 于 存放 将 
返回 给 调用 者 的 if_nameindex 结 构 数组 。 这 是 一 个 过 高 的 估计 ， 不 过 总 
比 遍 历 两 趟 接口 列表 简单 : 一 趟 是 为 了 统计 接口 的 数目 和 各 个 名 字 总 的 














大 小 ， 忆 一 趟 是 为 了 填写 信息 。 我 们 从 该 缓冲 区 的 开头 往 前 〈 正 同 ) W 
建 if_nameindex 数 组 ， 从 缓冲 区 来 尾 往 后 《反问 ) 存放 接口 名 字 。 


只 处 理 RTM_ITFINFo 消 息 


22-36 再 历 所 有 的 消息 ， 从 中 碍 找 各 个 RTM_INF0 消 息 及 后 跟 的 数 
据 链 路 套 接 字 地 址 结构 。 把 接口 名 字 和 索引 存放 到 正在 构建 的 数组 中 。 


终止 数组 
38-39 ”把 数组 最 后 一 个 元 素 的 if_name 置 为 空 ，if_index 置 为 0。 

















18.6.4 if _freenameindex K ži 


Boa — ^ eR OA 18-21t aN, "E PEBCA i f_nameindex2i 9 2H KE 
中 所 含 的 名 字 分 配 的 内 存 空间 。 


librotie/if_naimeindex.c 
43 void 
14 if zreenaneindex(struct if rareindex *ptr; 
45 | 
46 f -eeiptr): 
17 ] 
libvonieAf nameindex.c 





图 18-21 释放 由 if_nameindex 分 配 的 内 存 空间 


本 函数 极其 简单 ， 因 为 在 if_nameindex 函 数 中 我 们 把 结构 数组 和 名 
字 存 放 在 同一 个 缓冲 区 内 。 要 是 我 们 在 if_nameindex 函 数 中 对 每 个 名 字 
都 调用 malloc， 那 么 为 了 释放 内 存 空 间 ， 我 们 将 不 得 不 过 历 整 个 数组 ， 
先 释 放 每 个 名 字 的 内 存 空间 ， 再 释放 数组 本 号 。 











18.7 252 


我 们 在 本 书 中 最 后 遇 到 的 套 接 字 地 址 结构 是 sockaddr_d1 结 构 ， 它 
是 一 种 可 变 长 上 度 的 数据 链 路 套 接 字 地 址 结构 。 源 目 Berkeley 的 内 核 把 它 
们 和 接口 联系 起 来 ， 以 便 返 回 接口 索引 、 名 字 和 人 硬件 地 址 。 


507~ 508 


进程 可 以 写 到 路 由 套 接 字 的 消息 有 5 个 类 型 ， 内 核 可 通过 路 由 套 接 
FRA KS HS TARA 我 们 给 出 了 这 样 一 个 例子 : 进程 同 内 核 
HERAT I EID 的 信息 ， 内 核 作为 响应 给 出 所 有 的 细节 信息 。 这 
HEA Tz RS] JW PS As 最 多 8 个 套 接 3 字 地 址 结构 ， 我 们 必须 分 析 这 些 消息 
以 获取 其 中 的 每 条 信息 。 


sysct1 函 数 是 获取 和 设置 操作 系统 参数 的 一 个 通用 方法 。 我 们 所 关 
注 的 sysct1 操 作 包 括 ; 














e RRIK: 
。 倾 泻 出 路 由 表 ; 
。 倾 演出 ARP 高 速 缓存 。 


IPV6 要 求 对 套 接 字 API 实 施 的 相关 改动 包括 在 接口 名 字 和 接口 索引 
之 间 进 行 映射 的 4 个 函数 。 每 个 接口 都 被 赋予 一 个 唯一 的 正 值 索 引 。 源 
自 Berkeley 的 实现 已 经 把 索引 和 每 个 接口 联系 在 一 起 ， 因 此 我 们 可 以 很 
容易 地 使 用 sysct1 实 现 这 些 函 数 。 











习题 


18.1 对 于 一 个 名 为 eth16 且 链 路 层 地 址 是 一 个 64 位 IEEE EUI-64 地 
址 的 接口 而 言 ， 你 预期 它 的 数据 链 路 套 接 字 地 址 结构 中 的 sdl_len 成 员 


会 是 什么 ? 


18.2 ”图 18-6 中 若 在 调用 write 之 前 禁止 So_usELOOPBACK 套 接 字 选 
项 ， 将 会 发 生 什么 ? 
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Q@ 第 3 版 原文 仅仅 在 图 18-2 中 新 增 了 RTM_DELMADDR 〈 多 播 地 址 正 被 删 离 接 
口 ) 、RTM_IFANNOUNCE (接口 正 被 增 至 或 删 离 系 

统 ) . RTM NEWMADDR (接口 正在 加 入 多 播 地 址 ) 3 个 路 由 消息 ， 既 没有 

更 新 正文 (仍然 说 共有 12 个 路 由 消息 ) ， 也 没有 任何 解释 (包括 在 其 他 
章节 中 ) 。 这 种 不 一 致 现象 表现 在 新 作者 只 蔡 换 Stevens 先 生 在 第 2 版 给 
出 的 图 表 、 程 序 代码 和 程序 运行 例子 ， 而 很 少 甚至 根本 不 在 正文 、 习 题 
和 习题 答案 中 做 相应 的 调整 ， 个 别 程序 运行 例子 甚至 有 算 改 嫌疑 ， 而 不 
是 直接 取 自 程序 运行 结果 (不 排除 排版 差错 ) 。 对 于 第 3 版 原文 中 存在 

的 这 些 问 题 ， 译 者 已 尽 可 能 地 了 予以 订正 。 译 者 注 





























第 19 章 ” 密 钥 管理 套 接 字 


19.1 概述 


随 着 IP 安 全 体系 结构 (IPsec， 见 RFC 2401 [Kent and Atkinson | ) 
的 引入 ， 私 钥 体 系 加 密 和 认证 密 钥 的 管理 越 来 越 需要 一 套 标 准 的 机 制 。 
RFC 2367 [McDonald, Metz, and Phan 1998] 介绍 了 一 个 通用 密 钥 管理 
API， 可 用 于 IPsec 和 其 他 网 络 安 全 服务 。 与 路 由 域 套 接 字 (第 18 章 ) 类 
似 ， 该 API 也 创建 了 一 个 新 的 协议 族 即 PF_kEY 域 。 在 这 个 密 钥 管 理 域 
中 ， 唯 一 支持 的 一 种 套 接 字 是 原始 套 接 字 。 


正如 4.2 节 中 所 述 ， 在 大 多 数 系 统 上 常 值 AF_KEY 将 被 定义 成 与 PF_KEY 
有 相同 的 值 。 然 而 RFC 2367 相 当 明 确 地 认为 密 钥 管理 套 接 字 必须 使 
用 PF_KEY 这 个 常 值 。 


打开 原始 密 钥 管 理 僚 接 字 需要 特权 。 在 特权 按 需 分 割 的 系统 上 ， 打 
开 密 钥 管理 套 接 字 这 样 的 操作 必须 目 有 一 个 单独 的 特权 。 在 普通 的 Unix 
系统 上 ， 蜜 钥 管 理 套 接 字 仅 限 超级 用 户 有 打开 权限 。 


IPsec 基于 安全 关联 (security association; SA) 为 分 组 提供 安全 服 
务 。SA 描 述 了 源 地 址 与 目的 地 址 〈 加 上 可 选 的 传输 协议 和 端口 ) 、 机 
制 (例如 认证 ) 以 及 密 钥 素材 的 组 合 。 单 个 分 组 交通 流 上 每 个 方 同 都 可 
以 应 用 不 止 一 个 SA 例如 一 个 用 于 认证 ， 一 个 用 于 加 密 〉 。 存 放 在 一 
个 系统 中 的 所 有 SA 构成 的 集合 称 为 安全 关联 数据 库 Csecurity association 
database, SADB) 。 


一 个 系统 的 SADB 可 能 用 于 IPsec 以 外 的 场合 ， 举 例 来 说 ， 
OSPFv2、RIPv2、RSVP、Mobile-IP 等 在 SADB 中 也 可 能 有 各 自 的 表 
项 。 据 此 PF_KEY 套 接 字 不 仅 限 IPsec 使 用 。 


511 




















IPsec 还 需要 一 个 安全 策略 数据 库 (security ^ policy database, 
SPDB) 。SPDB 描 述 分 组 流通 的 需求 ， 例 如 ， 主 机 A 和 主机 B 之 间 的 分 
组 流通 必须 使 用 IPsec AH 认 证 ， 未 经 认证 的 一 律 被 丢弃 。SADB 描 述 如 





何 执行 所 需 的 安全 步 又， 例如， 假设 主机 A 和 主机 B 之 间 的 分 组 流通 按 
照 策略 在 使 用 IPsec AH，SADB 就 含有 所 用 的 算法 和 密 钥 。 不 幸 的 是 ， 
SPDB 没 有 标准 的 维护 机 制 。 尽 管 PF_KEY 可 以 维护 SADB， 对 SPDB 却 无 
能 为 力 。KAME 的 IPsec 实现 使 用 pPF_KkEY 的 扩展 类 型 来 维护 SPDB， 不 过 
这 种 做 法 没有 标准 可 循 。 


密 钥 管理 套 接 字 上 支持 3 种 类 型 的 操作 。 


(1) 通过 写 出 到 密 钥 管理 套 接 字 ， 进 程 可 以 往 内 核 以 及 打开 着 密 铀 
管理 套 接 字 的 所 有 其 他 进程 发 送 消息 。SADB 表 项 的 增加 和 删除 采用 这 
种 操作 实现 ， 诸 如 OSPFv2 等 自行 保障 安全 的 进程 也 采用 这 种 操作 从 某 
个 密 钥 管理 守护 进程 请 求 密 钥 。 


(2) 通过 从 密 钥 管理 套 接 字 读 入 ， 进 程 可 以 自 内 核 (或 其 他 进程 ) 
接收 消息 。 内 核 可 以 采用 这 种 操作 请 求 某 个 密 钥 管理 守护 进程 为 依照 策 
略 需 受 保护 的 一 个 新 的 TCP 会 话 安 装 一 个 SA。 


(3) 进程 可 以 往 内 核发 送 一 个 倾泻 dumping) 请 求 消 息 ， 内 核 作 为 
应 答 倾 海 出 当前 的 SADB。 这 是 一 个 调试 功能 ， 并 非 所 有 系统 上 都 一 定 


可 用 








19.2 AS 


罕 越 密 钥 管理 套 接 字 的 所 有 消息 都 有 同样 的 基本 首部 ， 如 图 19-1 所 
示 。 每 个 消息 可 能 后 跟 各 种 扩展 〈extention) ， 取 决 于 可 提供 的 或 所 请 
求 的 额外 信息 。 所 有 这 些 相关 结构 都 定义 在 头 文 件 <net/pfkeyv2.h> 中 。 
每 个 消息 和 扩展 都 是 64 位 对 齐 的 ， 长 度 是 8 字 节 的 整数 倍 。 所 有 的 长 度 
字段 均 以 64 位 为 单位 ， 也 就 是 说 长 度 为 1 意味 着 8 个 字 节 。 数 据 部 分 不 是 
恰好 处 于 某 个 64 位 边界 的 扩展 必须 填充 到 下 一 个 64 位 边界 。 填 充 字 节 的 
具体 值 没 有 定义 。 




















struct sadb mq [ 
u intt t gacb meg vers:an; /* PP KEY V2 "/ 


u ince t gacb mzq typo; /* cee Figure 19.2 */ 

u_inté t sacb mq crrno; /* error indication */ 

u intE t cacb mzq _catyps; /* eee Figure 19.3 */ 

u incl6 t Sodb ms3 1c2; /* lensth of hoaser + extension / 8 */ 

u intlé t cadb moa recervoed; /* zero cn transmit, ignored on receive */ 
u int22 t sadb_msq_£¢q; /* sequence nurbcr */ 


u int22 t cadb mea cid; /* pxoceco ID sf scurco or dest */ 


}; 





图 19-1 EHE BEBE 


sadb_msg_type 成 员 确 定 本 消 筷 是 图 19-2 列 出 的 10 个 密 钥 管理 消息 类 
型 中 的 哪 一 个 。 每 个 sadbp_msg 首 部 将 后 跟 零 个 或 多 个 扩展 。 大 多 数 消 上 
类 型 都 有 必需 的 和 可 选 的 扩展 ， 我 们 将 在 讲解 每 个 消 轧 类 型 时 提 到 这 
些 。 图 19-3 列 出 了 16 个 扩展 类 型 以 及 定义 各 个 扩展 的 结构 的 名 称 。 

















消息 类 型 ” | 去 往 内 核 ? | 来 自 内 核 ? 
SAD* ACQUTSF | 请 求 创 建 一 个 SADB 表 项 
SADE ADE H *» IT se ITISADB K 
SADS DELETS . e 出 | 除 一 个 SADB 表 项 
SADG_DUMP . - 倾泻 出 SADB GAWA) 
SADS EXPIRE ^ Y IM TSSADR IE WN 
SADS FLUSH e E vp SADB 
SADS GEI . © PIR—TSADB Rg 
SADS GETSPI * ~ arf — “FF MEISADBACRIISPI 
SADS REGISTER . 注册 成 3ApR_AcOU-RS 的 应 答 者 
SADS UPLATZ e E 更 改 个 不 完 各 的 SADB 表 项 








扩展 首部 类 型 


SADB EXT ADDRESS DST SA EI Ay Hh hE cadb address 
SADB_EXT ADDRESS PROXY SA 代理 地 址 sadb address 
SADR EXT ADDRESS SRC SA 源 地 址 sadb address 


SADB EXT IDENTITY DST 目的 身份 sadb iden- 
SADR_EXT_TDENTTTY_SRC Mu 5 (o sadb_ident 
SADD EXT KEY AUTI Wir xg] 
SADR EXT KEY FNORYPT it 259] 


SADD EXT LIFETIMZ CURRENT SA 当前 生命 期 sadb litfec:me 
SADR EXT LTFFTIMS HARD SAE dr WE Se a] sadb life-:me 
SADB EXT LIFETIMS SOFT SAE fr HEX 3263] sadb lifetime 


es | Sache 


SADB_EXT_SA 


SADB EXT SENSITIVITY 

SADB EXT SPIRANSE 可 接受 的 SPl 住 范围 sadb spirange 
SADB EXT SUPPCRTEL AUTH 得 到 支持 的 认证 算法 sadb supported 
SADR EXT SUPPCRTET ENCRYPT 383 94 3 o Jim S: sadb supported 





图 19-3 ”PF_KEY 扩 展 类 型 


我 们 接 下 来 给 出 一 些 例子 ， 并 展示 通过 密 钥 管理 套 接 字 执 行 的 若干 
第 见 操作 所 涉及 的 消 轧 和 扩展 。 


19.3 ” 倾 海 安全 关联 数据 库 


进程 使 用 sADB_puMP 消 息 倾泻 当前 SADB。 它 是 最 简单 的 密 钥 管理 消 
息 ， 不 需要 任何 扩展 ， 单 纯 是 16 字 节 的 sadb_msg 首 部 。 一 个 进程 通过 某 
个 密 钥 管理 套 接 字 发 送 一 个 saApB_DuMp 消 息 到 内 核 后 ， 内 核 通 过 同一 个 
套 接 字 响应 以 一 系列 SADB_pUMP 消 息 ， 每 个 消息 对 应 一 个 SADB 表 项 。 这 
个 列表 的 末尾 由 sadb_msg_seq 成 员 值 为 0 的 一 个 消息 指示 。 


通过 把 请 求 消 息 的 sadb_msg_satype 成 员 设 置 为 图 19-3 给 出 的 某 个 确 
定 值 ， 进 程 可 限制 SA 的 类 型 。 若 该 成 员 的 值 为 非 确 定 的 
SADB_SATYPE_UNSPEC 常 值 则 SADB 中 的 所 有 SA 均 返 回 。 并 非 所 有 系统 都 
支持 全 部 SA 类 型 。 KAME 实 现 仅仅 支持 IPsec 的 两 类 
SA (SADB_SATYPE_AH 和 SADB_SATYPE_ESP) ， 因 此 要 是 试图 倾泻 
SADB_SATYPE_RIPV2 类 型 的 SA， 将 返回 EINVAL 错 误 。 如 果 SADB 中 没有 所 
请 求 确定 类 型 的 SA， 那 么 将 返回 ENOENT 错 误 。 











安全 关联 类 型 
SADB SATYPE AH [IPsec 安全 首部 
SADB_SATYPE_ESP IPsec zc 4274 qup E 
SADB SATYPE MIP 可 移动 IP 认 证 
SADB SATYPE OSPFV2 OSPFVv2 认 证 
SADB SATYPE RIPV2 RIPv2 认 证 
SADB SATYPE RSVP RSVP 认 证 


SADB SATYPE UNSPECIFIED He +5 HH . 1X by F [n EH 消 a 





图 19-4 ”SA 类 型 


512—514 


图 19-5 给 出 了 用 于 倾泻 SADB 的 程序 。 


hevidunrp.c 


1 void 

2 sadb dumpiint typz! 

3 { 

a int 3; 

s char ruf 1096]; 

6 struct sads msg mseg; 

3 int gozeot,; 

8 5 = Socket (PF_XEY, BOCK RhW, LF KEY V2); 
9 /* Build and write SADB_DUMP request */ 
16 bzer2a(&nsg, sizeof (mag!) ; 

11 ms.sadb msg version = PF KEY V2; 

12 msg.cacbh msg type =- SADE LUMP; 

12 m5g.2adb m3q satypo = typt: 

14 msg.sacb msg len » sizeo2 (msg) / 3, 


15 msg.saóh msg pid s getpid(:; 
1€ print=(*sending dump meseage:\n"); 


7 print sacb nsg(&msq, sizeof (msql); 

18 W-iteí(s, &msg, sizeofimsg)!; 

19 pzint?(*NuWessages returned:Ni*); 

20 /* Read and orint SADB DUMP replies until dore */ 
21 gotest = 0; 

22 while (goteof -- 0! | 

23 int msg] en; 

24 struct sadb meg *msop; 

25 waglen = Readis, &but, sizcot (buft}); 

26 msgp = /st-uct sadb msg *l&buf; 

27 prini _sadb msy Gmsgp, msglen) ; 

2& if i(msgp->sadb msz seq -- 0) 

29 gozeof = 1; 

30 } 

31 close (ES + 

32 ) 

32 ant 

34 main(int argc, chaz **argv] 

35 ( 

36 int satype = SADB SATYPE INSPEC; 

7 int or 

36 opterr - 0; /* don't want getcpt!!| writing tc stderr */ 
39 while ( (c = getap-largc. argv, "n:")) 1= --) { 
ao switch ic) 4 

41 case 't': 

42 if ‘(satype = gstsatypebyneme[5ptarg)] == -1) 
43 err quit('invalid -L option ts", optarg): 
ad breaz; 

15 default: 

16 err quit('urrecognized option; $c*, cl; 
7 } 

46 } 

49 sadb dump(satyre!; 

50 ] 


hevidunte.c 
图 19-5 ”通过 密 钥 管 理 套 接 字 发 出 SADB_pUMP 命 令 的 程序 
这 是 我 们 第 一 次 碰 到 POSIX 的 getopt 函 数 。 该 函数 的 第 三 个 参数 是 


ASN. HERES PAMELOR BLE. EO 
字符 后 跟 一 个 冒号 ， 表 示 这 个 选项 需要 一 个 参数 。 在 允许 有 不 止 一 个 作 








NALITA BUTI E NERUREE FB. REESE RP BRE — E. DUAL 
29-7 所 示 程 序 中 ， 这 个 参数 是 oi:1:v， 表 示 那 个 程序 接受 4 个 选项 : i 和 1 
这 两 个 选项 需要 参数 ，9 和 v 这 两 个 选项 不 需要 参数 。getopt 函 数 与 

在 <unistd.h> 头 文件 中 定义 的 以 下 4 个 全 局 变量 协同 工作 。 


extern char *optarg: 
extern int optind, opterr, optopt; 


在 调用 getopt 之 前 我 们 把 opterr 设 置 为 0， 以 防 发 生命 令 行 参数 与 
该 函数 第 三 个 参数 不 匹配 等 错误 时 该 函数 把 出 错 消息 写 出 到 标准 错误 输 
出 ， 因 为 我 们 想 自 行 处 理 这 些 错 误 。POSIX 声 称 把 该 函数 的 第 三 个 参数 
指定 为 以 一 个 冒号 打头 也 可 以 阻止 该 函数 写 出 到 标准 错误 输出 ， 不 过 并 
非 所 有 实现 都 支持 这 一 点 。 


打开 PF_KEY 套 接 字 


1-8 打开 一 个 PF_KEY 套 接 字 。 这 个 操作 需要 特定 系统 权限 ， 因 为 
它 允 许 访问 敏感 的 密 钥 系 材 。 


构造 SApB_DUMP 请 求 


9-15 ” 先 清 零 sadb_msg 结 构 以 跳 过 对 那些 我 们 希望 其 保持 为 零 的 字 
段 的 初始 化 ， 再 单独 将 其 余 字 上 段 填充 到 sadb_msg 结 构 中 。 在 以 PF_KEY_v2 
为 第 三 个 参数 调用 socket 打 开 的 PF_KEY 套 接 字 上 写 出 的 所 有 消息 必须 把 
消息 版 本 都 设置 为 PF_KEY_v2。 消 息 类 型 为 SADpB_DUMP。 长 上 度 为 不 带 扩 展 
的 基本 首部 长 度 。 我 们 还 设置 进程 ID 为 自己 的 PID， 因 为 从 进程 到 内 核 
的 所 有 消息 必须 以 发 送 者 的 PID 来 标识 。 


输出 SApB_DuMP 消 息 并 写 到 套 接 字 

16-18 “使 用 我 们 的 print_sadb_msg 函 数 显示 本 消息 。 我 们 不 给 出 这 
个 见长 而 无 味 的 函数 ， 它 包含 在 可 自由 获取 的 源 代码 中 。 它 接受 正 写 到 
或 已 读 自 密 钥 管 理 套 接 字 的 某 个 消息 ， 以 直观 可 读 方式 显示 其 中 的 所 有 
信息 。 我 们 接着 写 出 本 消息 到 套 接 字 。 


读 取 应 答 


19-30 ”进入 一 个 循环 逐一 读 取 每 个 应 答 ， 并 使 用 print_sadb_msg 显 
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为 “文件 结束 ”标志 。 


关闭 pPF_KEY 套 接 字 

32 ”最 后 关闭 先前 打开 的 套 接 字 。 
处 理 命令 行 参数 

38-48 main 函数 没 多 少 事 可 做 。 本 程序 取 一 个 可 选 的 命令 行 参 
数 ， 用 以 指定 待 倾泻 的 SA 类 型 。SA 类 型 默认 为 SADB_SATYPE_UNSPEC， 这 
会 倾泻 所 有 类 型 的 SA。 通 过 指定 命令 行 参数 ， 用 户 可 以 选择 倾泻 哪 种 
one AN Fe AS BAT get sat yypebyname pk] ALM SCAR $ £8 S81 2 709 
fü. 
调用 sadb_dump 函 数 

49 ”最 后 调用 刚 定 义 的 sadb_dump 函 数 完成 全 部 工作 。 
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BAT ABI 
下 面 是 在 一 个 具有 2 个 静态 SA 的 系统 上 运行 本 倾泻 程序 的 输出 。 


macosx % dump 
Sending dump message: 
SADB Message Dump, errno ©, satype Unspecified, seq 0, pid 20623 


Messages returned: 
SADB Message Dump, errno ©, satype IPsec AH, seq 1, pid 20623 
SA: SPI=258 Replay Window=0 State=Mature 
Authentication Algorithm: HMAC-MD5 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 
© allocations, 0 bytes 
added at Sun May 18 16:28:11 2003, never used 
Source address: .5/128 (IP proto 255) 
Dest address: .9/128 (IP proto 255) 
Authentication key, 128 bits: 0x20202020202020200202020202020202 
SADB Message Dump, errno 0, satype IPsec AH, seq 0, pid 20623 
SA: SPI-257 Replay Window=0 State=Mature 
Authentication Algorithm: HMAC-MD5 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 


© allocations, 0 bytes 
added at Sun May 18 16:26:24 2003, never used 
Source address: .4/128 (IP proto 255) 
Dest address: .8/128 (IP proto 255) 
Authentication key, 128 bits: 0x10101010101010100101010101010101 


19.4 创建 静态 安全 关联 


向 SADB 增 加 一 个 SA 最 直接 的 方法 是 手工 指定 所 有 参数 填写 并 发 送 
一 个 sSADB_ADD 消 和 忠 。 尺 管 手 工 指定 密 钥 素材 会 导致 不 易 更 改 密 钥 (这 一 
点 对 于 避免 密码 分 析 攻 击 至 关 重 要 ) ， 配 置 起 来 却 相 当 容 易 : Alice 和 
Bob 使 用 带 外 手段 达成 一 个 密 钥 和 算法 ， 然 后 使 用 它们 。 我 们 给 出 创建 
和 发 送 一 个 sSADB_ADD 消 息 的 步骤 。 


SADB_ADD 消 息 必需 的 扩展 有 3 种 : SA、 地 址 和 密 钥 。 可 选 的 扩展 也 
有 3 种 : 生命 期 、 和 号 份 和 敏感 性 。 我 们 首先 讲解 必需 的 扩展 。SA 扩 展 由 
如 图 19-6 所 示 的 sadb_sa 结 构 描 述 。 
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struct sad- sa ( 
u intl» t sade sa ler; /* lenstn of extension / & */ 
u intlS t sado sa exttype; /* SADE EXT S5 */ 
u int32 L sedi sa spi: /* Security Parameters Index (SPI) */ 
u int& t sadb sa replay; /* replay window size, or zerc */ 
u int8B t sadb sa etate; /* SK etate, zea Figure 19.) */ 
u int8 t sade mm auth; /* authentication alcoricthm,sce Fioure 19.8*; 
u int8 t sad» sa encryp-; /* encryption algorithm, see Figure 19.8 */ 
u inr32 r sadb ma f'ags; /* birmask of flacs */ 


be 





图 19-6 SA 扩展 


sadb_sa_spi 成 员 含 有 安全 参数 索引 (Security Parameters Index, 
SPD 。SPI 结 合 目 的 地 址 和 所 用 协议 〈 如 IPsec AH) 唯一 标识 一 个 SA。 
在 接收 分 组 时 ，SPI 用 于 查找 该 分 组 的 SA;， 当 发 送 分 组 时 ，SPI 插 入 到 分 
组 中 供 对 端 使 用 。SPI 没 有 别 的 含义 ， 因 此 其 值 可 以 顺序 地 或 随机 地 分 
配 ， 也 可 以 使 用 目的 系统 首选 的 方法 进行 分 配 。sadb_sa_replay 指 定 反 
重 放 窗口 的 大 小 。 既 然 静 态 生成 密 钥 无 法 反 重 放 ， 我 们 把 它 设 置 为 0。 
Jsadb_sa_state 成 员 值 在 动态 创建 的 SA 的 生命 周期 内 会 发 生变 化 ， 可 
取 值 如 图 19-7 所 示 。 然 而 手工 创建 的 SA 总 是 处 于 SADB_SASTATE_MATURE 
状态 。 包 我 们 将 在 19.5 节 看 到 其 他 状态 。 


& | wae 


SADB SASTATE LARVAL 被 创 | gd whee p 


SADB SASTATE MATURE 完全 形成 


SADB SASTATE DYING 软 生 命 期 结束 





SADB SASTATE DEAD 硬 生 命 期 结束 
图 19-7 SA 的 可 能 状态 


sadb_sa_auth 成 员 和 sadb_sa_encrypt 成 员 分 别 指 定 本 SA 的 认证 算 
法 和 加 密 算 法 ， 可 取 值 如 图 19-8 所 示 。sadb_sa_flags 成 员 目 前 只 定义 了 
一 个 标志 ， 即 SADB_SAFLAGS_PFS。 该 标志 要 求 完 备 前 向 安全 (perfect 
forward security) ， 也 就 说 这 样 的 密 钥 一 定 不 依赖 于 任何 先前 的 密 钥 或 
某 个 主 密 钥 。 该 标志 值 用 于 从 密 钥 管理 守护 进程 请 求 密 钥 的 场合 ， 增 加 
静态 SA 时 不 用 。 








SADB AALG NONE ASU UE 
SADB_AALG_MDSHMAC HMAC-MD5-96 RFC 2403 
SADB_AALG_SHA1HMAC HMAC-SIIA-1-96 RFC 2404 


SADB_EALG_NOWE 不 加 密 

SADB EALG DESCBC DES-CRC RFC 2405 
SADB EALG 3DESCSC 3DES-CBC RFC 1851 
SADB EALG NULL NULL RFC 2410 





图 19-8 认证 和 加 密 算 法 


SADB_ADD 消 息 下 一 种 必需 的 扩展 是 地 址 。 分 别 由 党 
{HSADB_EXT_ADDRESS_SRCAISADB_ ”EXT_ADDRESS_DST 指 定 的 源 地 址 与 目的 
地 址 是 必需 的 ， 而 由 常 值 SADB_EXT_ADDRESS_PROXY 指 定 的 代理 地 址 是 可 
选 的。 代理 地 址 详 见 RFC 2367 [ McDonald, Metz, and Phan 1998] 。 地 
址 使 用 如 图 19-9 所 示 的 sadb_address 扩 展 所 指定 。 该 结构 的 
sadb_address_exttype 成 员 确 定 本 地 址 的 上 述 类 
别 。sadb_address_proto 成 员 指 定 本 SA 有 待 匹配 的 卫 协 议 ， 知 为 0 则 匹 
配 所 有 协议 。sadb_address_prefixlen 成 员 给 出 本 地 址 的 有 效 位 数 ， 这 








样 单个 SA 可 以 匹配 多 个 地 址 。sadb_address 结 构 后 跟 合适 地 址 族 的 
sockaddr 结 构 〈 如 sockaddr_in 或 sockaddr_in6) 。sockaddr 中 的 端口 仅 
在 sadb_address_proto 指 定 的 协议 支持 端口 写 的 前 提 下 (如 

IPPROTO TCPO JEX 





4 int18 - sadb address len; /* Length af extension + address / 8 */ 
4 íntie 7 sadb address exrtvpe; /* SADa EXT ADDRESS (SRC,DST,2ROXY) */ 
4 int9 t codb addrooc proto; /* IP protocol, or C tor all */ 

4 int0 t sadb address prefixlsn; /* # significant bits in address */ 

| inriá 二 sadb address reserved; /* reserved ^or extensian */ 


/* tollowed by cperopriate sockaddr */ 





图 19-9 ”地址 扩展 


SADB_ADD 消 息 最 后 一 种 必需 的 扩展 是 认证 和 加 密 密 钥 ， 分 别 由 季 
值 SADB_EXT_KEY_AUTH 和 SADB_EXT_KEY_ENCRYPT 指 定 ， 由 如 图 19-10 所 示 的 
sadb_key 结 构 描 述 。 其 中 sadb_key_exttype 成 员 定 义 本 密 钥 是 认证 密 钥 
还 是 加 密 密 钥 ，sadb_key_bits 成 员 指 定 本 密 钥 的 位 数 ， 密 钥 本 和 号 则 紧 
跟 在 sadb_key 结 构 之 后 o 











struct sadb key [ 





4 in-16 = sadb key len; /* length af extension + key / & */ 
u inzie = sadb key exttyps; /* SPEDE EXI KEY (AUTH,sNCRYPT) */ 
u in-l6 ~ sadb_key bits; /* d bits in key */ 

u in-16 - sadb key reserved; /* reserved for ex-ension */ 


yi 


/* tc.lowed zy key data */ 


图 19-10 443 JE 
518-519 


图 19-11 给 出 了 增加 一 个 静态 SADB 表 项 的 程序 代码 。 


34 salh_add (struc sockaddr ^sre, struct sockaddr “dst, int type, int alg, 


35 
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int spi, int keybits, wisigmed char ¢keydatad 


int 8; 

char tut.1096], *p; /* XXX */ 
struct szdo rsa *mag; 

Struct ssdo sa *8aext; 

Struct sado address taddrext ; 
struck sado key *keyexi; 

int len1; 

int mypid; 


8 = Socket(PE KEY, SOCK R^W, PF KEY V2); 
mypid - setpid(]; 


/* Build and write SADB ADD request */ 
bzero(ébut, sizeof (buf}); 

p = buf; 

mag = (struct 3adb msg *!p: 
msg-»sadb msg version = PP KEY V2; 
mgg-»sadb msg type = SADhH Ann; 
mog->sadb meg zacype = type; 
mag->sadb_msg_5.d = getpicl), 

len = sizeof (*Wsg) ; 

p += sizeof[*mag!; 


eaext = (struct sadb sa *)p; 

saext »szdo sa len = sizeof(*sacxt) / 8; 
saexL-»sadb sa extLype = SADB EXT SA; 
saext-»sado sa spi ~ htonl (spi); 
6aext->eadcs ca replay = 0; /* ro replay protection with etacic keye */ 
Saext--ssdo sa scaze = SADD SBSTATD MATURE; 
saext-»sad» sa auti = alg; 
Saexr-»eadno ca encrypt = SADE EALG NONE; 
Saext-»o2do ca tlaqo = 0; 

len +- ssext--3adb sa len * 8; 

p += saext-»5adb sa len * 8; 


addrext = (stric- sadb adiress *)p; 

addrext->eadb address len = ;eizeof(*addrext) + salenisrc) + 7; / 87 
addrext ->sadb_addresa_exttype = SADDB EXT ADDRESS SRC; 

edklrext-2sadbt address proto = 0; — /^ any zrutocol */ 

&ódrext--sadc address prefixien - prefix ali (src); 
eddrext-»sadb addresc ecsrves = D; 
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4 mencpy laddrext + 1, arc, salen(src)): 
75 len += addrext-»sadb_address_len * 3; 
6 p -= addrext-»sadb_address_len ^ B, 


2T addrext = (struct sadb address ^g; 

78 addrext-»sedb &dórsss len = (sizeczf(*addrext) + salen‘dst) + 7) / 8; 
79 addrext-»s&db sdirsss exctype - SAD2 EXT ADDRESS D3, 

£0 addrext->sedb_eddress_ proto - 0; /* any prctoccl */ 

£l addrext ->sadb_address_prefixlen = prefix allidst); 

£2 addrext -2sedb address reserved = 

£3 nen-py!addrext + 1, dst, salen(cst)); 

E4 len +2 addrext-»sadb address leri * 8; 

FR p -= aldrext-ssaib_address_len * R; 

£6 keyex. = (sLouct sadb_key *)p; 

RT J* "«7* handles a^ igonen-. requirevents */ 

FR keyex: ;»5adb key -ien = i(mizeof(*keyex-) « ikeybits I 8k e TDA &; 
£9 keyex--»sadb | key | exttype = SADR EXT KEY AUTH; 

so keysx--»sadh | key | bits = keybits; 

$i keyexc- seat db 1 kev reserved = 0; 

e2 net spy theyre + x. keyda-a, keybits / 8); 

S3 len += keyext- ssadh «ey len * 8j; 

S4 p -= Xeyext-5szd-5 key len * 8; 

os mag-»asadb msc len = len / A; 

26 pr-ntfi "Sending adj message: \n"); 

97 print sadb msg(buf, len); 

og Write(s, but, len); 

es pr-nt£i'SnReply returned: Mn'|; 

102 /* Read and print SA-B AUD reply, discarding ary others */ 
101 for (77! ( 

102 int mszilen; 

103 struct sado msg tmsgp; 

104 msclen = Readí(z, abut, sizecf(buf)): 

105 mscp = [struct sadb meg *)»buf; 

105 if (msgp-»sadb msg pic == mypid && msgp-»sad- msg type == SADS ADD) ( 
107 print eab mag (asap, agen; 

108 break ; 

103 } 

110 i 

2i1 close (s! ; 

113 ] 


heyiadd.c 














图 19-11 通过 密 钥 管理 套 接 字 发 出 SADB_ADD 命 令 的 程序 
打开 PF_KEY 套 接 字 并 保存 PID 
47-56 ”打开 一 个 PF_KEY 套 接 字 ， 保 存 我 们 的 PID 供 以 后 使 用 。 
构造 SApB_App 消 息 首 部 


55-56 ”构造 一 个 普通 的 SADB_ADD 消 息 首部 。 ae ee 
再 设置 sadb_msg_len 成 员 ， 以 便 确 切 反 映 整 个 消息 的 长 度 。len 变 量 妃 
本 消息 的 当前 长 度 ， 而 p 指 针 总 是 绥 冲 区 中 第 一 个 未 用 的 字 节 。 


添加 SA 扩展 














57-67 ” 接 下 来 我 们 要 添加 必需 的 SA 扩展 (图 19-6) . sadb sa spi 
必须 以 网 络 字 节 序 存放 ，hton1 用 于 把 作为 本 函数 的 参数 传 入 的 主机 字 
节 序 的 SPI 值 转换 成 网 络 字 节 序 。 关 掉 重 放 保 护 ， 把 SA 状态 设置 
为 SADB_SASTATE_MATURE。 把 认证 算法 设置 为 通过 命令 行 参 数 指定 的 算 
法 ， 加 密 算法 则 设置 为 SADB_EALG_NONE。 
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添加 源 地 址 
68~76 ”将 源 地 址 以 sADB_EXT_ADDRESS_SRC 扩 展 的 形式 添加 到 本 消 

上 息 。 协 议 值 被 置 为 0， 表 示 本 SA 适用 于 所 有 协议 。 前 缀 长 度 被 置 为 相应 
IP 版 本 的 地 址 长 度 ， 对 于 IPv4 为 32 位 ， 对 于 IPv6 为 128 位 。 长 度 字 段 的 计 
算是 先 加 7 再 除 以 8， 以 确保 反映 出 按 64 位 边界 填充 后 的 长 度 。 把 
sockaddr 结 构 复 制 到 本 扩展 首部 紧 后 。 
添加 目的 地 址 


77-85 ”目的 地 址 按照 与 源 地 址 一 样 的 方式 以 SADpB_EXT_ADDRESS_DST 
扩展 的 形式 添加 到 本 消息 。 


添加 认证 密 铀 

86-94 ”以 SADB_EXT_KEY_AUTH 扩 展 的 形式 添加 认证 密 钥 。 长 上 度 字段 
计算 与 添加 源 地 址 一 样 。 设 置 好 密 钥 位 数 后 把 密 钥 数据 复制 到 本 扩展 首 
部 紧 后 。 
写 出 本 消息 

95-98 调用 print_sadb_msg 函 数 显示 本 消息 后 把 它 写 出 到 套 接 字 。 
读 取 应 答 


99-111 读 取 来 自 套 接 字 的 应 答 ， 寻 找 PID 与 本 进程 一 致 的 
SADB_ADD 消 息 。 调 用 print_sadb_msg 了 水 数 显示 该 消息 后 退出 。 














运行 示例 


运行 本 程序 ， 发 送 SApB_ADD 消 息 为 127.0.0.1 和 127.0.0.1 之 间 的 分 组 
流通 增设 一 个 SA。 


macosx % add 127.0.0.1 127.0.0.1 HMAC SHA-1-96 160 \ 
0123456789abcdef0123456789abcdef01234567 
Sending add message: 
SADB Message Add, errno 0, satype IPsec AH, seq 0, pid 6246 
SA: SPI-39030 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
Source address: 127.0.0.1/32 
Dest address: 127.0.0.1/32 
Authentication key, 160 bits: 0x0123456789abcdef0123456789abcdef01234567 


Reply returned: 
SADB Message Add, errno 0, satype IPsec AH, seq 0, pid 6246 
SA: SPI-39030 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
Source address: 127.0.0.1/32 
Dest address: 127.0.0.1/32 
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注意 作为 请 求 消息 的 回 射 的 应 答 消 息 没 有 给 出 密 钥 内 容 。 这 么 做 是 
因为 应 答 消 息 被 发 送 到 所 有 PF_KEY 套 接 字 ， 人 然而 不 同 的 套 接 字 可 能 属于 
不 同 的 保护 域 ， 密 钥 数 据 不 应 该 跨越 保护 域 。 把 这 个 SA 添加 到 SADB 之 
后 ， 我 们 对 127.0.0.1 执 行 ping 命 令 以 促使 该 SA 被 用 上 ， 然 后 倾 汽 出 
SADB 以 检查 所 添加 的 SA。 


macosx % dump 
Sending dump message: 
SADB Message Dump, errno ©, satype Unspecified, seq 0, pid 6283 


Messages returned: 
SADB Message Dump, errno ©, satype IPsec AH, seq ©, pid 6283 
SA: SPI-39030 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 
36 allocations, © bytes 
added at Thu Jun 5 21:01:31 2003, first used at Thu Jun 5 21:15:07 2003 
Source address: 127.0.0.1/128 (IP proto 255) 
Dest address: 127.0.0.1/128 (IP proto 255) 
Authentication key, 160 bits: 0x0123456789abcdef0123456789abcdef01234567 


从 倾泻 出 的 结果 可 以 看 到 ， 内 核 把 我 们 的 IP 协 议 由 0 改 为 255。 这 是 
本 实现 的 一 个 特征 (实际 上 是 一 个 缺陷 ) ， 而 并 非 PF_kEY 套 接 字 的 普遍 
特征 。 此 外 我 们 看 到 内 核 把 前 级 长 度 由 32 改 为 128( 本 实现 的 为 一 个 缺 


KA» 。 它 看 似 由 内 核 混 请 IPv4 和 IPv6 地 址 引起 。 内 核 还 返回 一 个 我 们 的 
倾泻 程序 不 认识 的 扩展 《编号 为 19) 。 不 认识 的 扩展 利用 它 的 长 度 字 段 
跳 过 。 所 返回 的 生命 期 扩展 〈 图 19-12) 含有 本 SA 的 当前 生命 期 信息 。 








struct sadb lifetime ( 


4 intl = sadb lifetime len; /^ length o£ exteneicn / & */ 
J inti z sadb lifetime exttype; /* SACB EXT LIFETIME {507T,HARD,CURRENT} */ 
4 inz22 ~ sadb l:fetime &llocations, /* H connections, endpoints. or flows */ 
4 inz64 二 sadb l-fez:me bytes: /* W bytes */ 
4 ínze4 = sadb lifetime addtime; /* tire of creation, or time from 
ersaticn to expiration */ 
1 intés 二 sadb 1 fe: me usetims; /* tiwe frist used, cr time from 


first use to expiration */ 


图 19-12 ”生命 期 扩展 


生命 期 扩展 共有 3 个 类 型 。sADB_LIFETIME_SOFT 和 
SADB_LIFETIME_HARD 这 两 个 扩展 分 别 指定 一 个 SA 的 软 生命 斯 和 硬 生命 
期 。 当 软 生命 期 结束 时 ， 内 核 及 送 一 个 SADB_EXPIRE 消 息 ; 当 硬 生命 其 
结束 后 ， 该 SA 不 能 再 用 。 用 于 指出 相应 SA 当前 生命 期 的 
SADB_LIFETIME_CURRENT 扩 展 在 以 下 啊 应 消息 中 返 
回 : SADB_DUMP、SADB_EXPIRE 和 SADB_GET。 
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19.5 ”动态 维护 安全 关联 


周期 性 地 重新 产生 密 钥 有 助 于 进一步 提高 安全 性 。 这 种 操作 通常 由 
诸如 IKE (RFC 2409 [Harkins and Carrel 1998] ) 之 类 协议 执行 。 


编写 本 书 时 IETF IPsec 工作 组 正在 规范 IKE 的 一 个 替代 协议 。 


为 了 获悉 何 时 需要 为 一 对 主机 提供 新 的 SA， 密 钥 管 理 守 护 进程 应 
预先 使 用 SApB_REGISTER 请 求 消息 癌 内 核 注 册 上 自身 ， 其 中 的 
sadb_msg_satype 成 员 会 指出 所 能 处 理 的 SA 类 型 。 如 果 和 守护 进程 能 够 处 
理 多 个 SA 类 型 ， 它 束 为 其 中 每 个 类 型 发 送 一 个 SADB_REGISTER 请 求 消 
县。 在 相应 的 SADB_REGISTER 应 答 消 息 中 ， 内 核 提 供 一 个 受 文 持 算 法 扩 
展 ， 指 出 哪些 加 密 和 /或 认证 机 制 及 密 钥 长 度 得 到 支持 。 受 支持 算法 扩 
展 由 如 图 19-13 所 示 的 sadb_supported 结 构 描述 ， 紧 跟 该 扩展 首部 的 是 以 
一 系列 sadb_alg 结 构 形 式 给 出 的 加 密 或 认证 算法 描述 。 











struct 5adb supported | 


u intl6 t sadb cupported len; /* 1cnqth ot extension + algorithms / E */ 
u incleé t cadb cupported exctype; /f* SADE EX SUPPORTED_{AUTH, ENCRYPT} */ 


u int32 t sadb supported reserved; /* reserved ter tuturs expansion */ 
un 


/* tollowed by algorithm List */ 


ctruct cadb al«q [ 


u int& t sadb 313 id; /* algorithn ID from Fiqure 19.8 */ 
u int&E t sadb_aig_avicn; f* IV Length, or zero */ 
u_intlé t sadb alg minbits, /* minimum key leng-h */ 
u incl6 t sodb 213 maxbit2; /* maximum key Length */ 
u_intlé t sadb ala reserved; /* reserved for future expansion */ 








图 19-13” 受 支持 算法 扩展 


sadb_supported 扩 展 首 部 之 后 出 现 的 每 个 sadb_alg 结 构 代 表 系 统 文 
持 的 一 个 算法 。 图 19-14 给 出 了 对 于 某 个 注册 处 理 SA 类 型 


为 SADB_SATYPE_ESP 的 SADB_REGISTER 请 求 的 一 个 可 能 应 答 。 


EN 


4 








sadb zagí(] 


sadb mag(] 


Eadb meg len 





sadb msg type - 
SADE REGISTE2 


sacb msg type - 
SADE REGISTER 





sab acpportad(! 






sadc supported_exttype - 
SADB EXT SUPPORTZD ACTH 
eadb als{} 
sadb alu id « 
SADB_AALG_MOSHMAC 
ivlen = 4 
minbite - 128 
maxbite = 125 


sadb alg(] 
sadb a2 i8 = 
SMDE AAL3 &EAIEMAC 
ivlen = į 
minbizs - 192 
maxbirs = 192 


sad» supported(} 






sadn 






supported 
|len 











sadb msg len 










sach surported ext-ype = 
EADE EXT SUFPORTED ENCRYPT 
sadb alg{} | 
sadz ala id - 
SADE EALG DES 

ivlen = 8 
mizbits - 64 
maxbits - 64 


aadb alg{} 
sado alg id - 
SADS EALG 3LES 
ivlsn 5 
mingita 192 
maxbita 192 
sadb alg{) 
sazb alg id - 
SADS_BALG NULL 
ivler = 0 
mirbits = 0 
maxbits « 2048 | 












gadb_ 
supported _ 
lez 


















图 19-14 “内核 为 SApB_REGISTER 请 求 返回 的 应 答 
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图 19-15 给 出 的 程序 使 用 SApB_REGISTER 请 求 向 内 核 注 册 自 身 进 程 ， 
后 显示 内 核 在 应 答 中 返回 的 受 支 持 算 法 列表 。 


kevresgiter.c 


1 void 

2 sadb regis-er!irt typa) 

3í 

4 int Si 

s cuar buf [3086] ; /* XXX af 
6 struct sadb mez msg; 

q int gotecf; 

a iat mypid; 

S $8 = ScCkec (PF KEY, SCCK RAW, PF KEY V2); 
10 mypid = getpid(! ; 

1i /* Build and write EADB REGISTER requcoz */ 
2 bzero(&msg, sizecf (magi); 

13 msg.sadb meg version = PF KEY V2; 

14 msg.sadb meg typs = SALB REGISTER; 

15 m3g.3adb mog satyps = type; 

16 mag.sadb_ weg len = sizeof[iusg) / B; 

17 mag.sadb meg pid = mypid; 

18 printf!'Sendinz register messag: Mn"); 
19 print sadb msq(émsg, sizeolimsg)!; 

20 Wr dbe(s, mu, sizeof imsg)!); 

z1 pri:ntE!|'*nReply returned: n';; 

22 /* Read and print SACB REGISTER reply, discarding any cthers */ 
23 for izi ( 

a int msc.an; 

25 struct sado mag *msgp; 

26 msclen 一 Reads, abut, sizecf(buf?)): 
av mecp = (struct sadb meg *)&but; 

28 iz [mscp-2aadb msg pic -= mypid && 
29 mscp-»sadb mj type == SATB REGISTER) ( 
30 princ sadb msg(mscp, msglen!; 

al brak; 

22 ) 

33 ] 

34 close(s!; 

as 


kewregister.c 








图 19-15 ”通过 密 钥 管理 套 接 字 注册 进程 的 程序 
打开 PF_KEY 套 接 字 
1-9 ”打开 一 个 PF_kEY 套 接 字 。 
保存 PID 


10 ”既然 应 答 消 息 将 使 用 我 们 的 PID 寻 址 ， 我 们 保存 自己 的 PID 供 以 
后 比较 用 。 


构造 SADB_REGISTER 消 息 








11-17  ff&sApB DUMPIScKYiH ERL— TE, SADB REGISTERISZK JH E tH, A ji 
要 任何 扩展 。 清 零 该 消息 后 填写 所 需 的 成 员 即 可 。 


526 








显示 消息 并 写 出 到 套 接 字 


18-20 ”使 用 print_sadb_msg 岗 数 显 示 刚 构造 的 消 奶 ， 并 把 它 写 出 到 
套 接 字 。 








23-33 ”从 套 接 字 读 入 消息 ， 找 出 与 我 们 的 注册 请 求 消 息 对 应 的 应 
答 消 息 。 该 应 答 消 息 是 一 个 PID 值 为 本 进程 PID 的 SADpB_REGISTER 消 息 ， 
含有 一 个 受 文 持 算法 的 列表 ， 全 部 由 print_sadb_msg 函 数 显 示 输 


运行 示例 


2367 中 规定 协议 的 系统 上 运行 register 
er 





nis 


macosx % register -t ah 
Sending register message: 
SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 


Reply returned: 

SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 

Supported authentication algorithms: 
HMAC-MD5 ivlen 0 bits 128-128 
HMAC-SHA-1 ivlen 0 bits 160-160 
Keyed MD5 ivlen 0 bits 128-128 
Keyed SHA-1 ivlen 0 bits 160-160 
Null ivlen © bits 0-2048 
SHA2-256 ivlen 0 bits 256-256 
SHA2-384 ivlen 0 bits 384-384 
SHA2-512 ivlen 0 bits 512-512 

Supported encryption algorithms: 
DES-CBC ivlen 8 bits 64-64 
3DES-CBC ivlen 8 bits 192-192 
Null ivlen © bits 0-2048 
Blowfish-CBC ivlen 8 bits 40-448 
CAST128-CBC ivlen 8 bits 40-128 
AES ivlen 16 bits 128-256 


A3 Es so H BUSES fe BT, UR s C VER [8] 4) 2H TC 42 01 


经 由 一 个 SA 而 内 核 却 并 没有 一 个 SA 可 用 ， 内 核 就 向 注册 了 所 需 SA 类 型 
的 密 钥 管理 套 接 字 发 送 一 个 SADB_AcQUIRE 消 息 ， 其 中 含有 一 个 擅 述 内 核 
所 提议 算法 及 密 钥 长 度 的 提议 扩展 。 该 提议 可 能 综合 了 系统 支持 的 配置 
与 限制 该 单 向 分 组 流 的 预 配 置 策略 。 提 议 内 容 是 一 个 由 算法 、 密 钥 长 度 
和 生命 期 构成 的 按照 优选 顺序 排列 的 列表 。 当 一 个 密 钥 管理 守护 进程 收 
到 一 个 SADB_AcQUIRE 消 息 之 后 ， 它 执行 必要 的 操作 以 选择 一 个 符合 内 核 
之 提议 的 密 铀 ， 再 把 该 密 钥 安装 到 内 核 中 。 它 使 用 SApB_GETSPI 消 息 请 
求 内 核 从 一 个 期 望 的 范围 内 选择 一 个 SPI。 内 核对 于 该 SADB_GETSPI 消 忆 
的 响应 包括 建立 一 个 处 于 幼虫 Carval) 状态 的 SA。 然 后 守护 进程 使 用 
由 内 核 提 供 的 这 个 SPI 与 远 端 协商 安全 参数 ， 接 着 使 用 SADpB_UPDATE 更 新 
该 SA， 使 它 进 入 成 熟 (mature) 状态 。 动 态 创 建 的 SA 通常 还 有 关联 的 
软 生命 斯 和 硬 生命 期 。 当 任何 一 个 生命 期 结束 时 ， 内 核 将 发 送 一 

个 SADB_EXPIRE 消 息 ， 其 中 指出 期 满 的 是 软 生 命 期 还 是 便 生 命 期 。 如 果 
软 生 命 期 结束 ， 其 SA 就 进入 垂死 (dying) 状态 ， 期 间 它 仍然 可 以 使 
用 ， 不 过 内 核 应 该 为 它 获取 一 个 新 的 SA。 如 果 硬 生命 期 结束 ， 其 SA 就 
E (dead) 状态 ， 这 种 状态 的 SA 不 能 继续 使 用 ， 必 须 从 SADB 中 
删除 。 
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19.6 小结 


密 钥 管理 套 接 字 用 于 在 内 核 、 密 钥 管 理 守护 进程 以 及 诸如 路 由 守护 
进程 等 安全 服务 消费 进程 之 间 交 换 SA。SA 既 可 以 手工 静态 安装 ， 也 可 
以 使 用 密 钥 协商 协议 自动 动态 安装 。 动 态 密 钥 有 关联 的 生命 期 。 当 软 生 
命 期 结束 时 ， 密 钥 管 理 守 护 进 程 得 到 通知 。 这 样 的 SA 如 果 在 便 生 命 期 
结束 前 未 航 新 的 SA 答 换 ， 那 束 不 能 再 使 用 。 


进程 和 内 核 通 过 密 钥 管理 套 接 字 交 换 的 消 轧 共有 10 个 类 型 。 每 个 消 
恩 类 型 都 有 关联 的 扩展 ， 有 的 是 必需 的 ， 有 的 是 可 选 的 。 每 个 由 进程 发 
送 的 消息 被 内 核 回 射 到 所 有 其 他 打开 着 的 密 钥 管 理 套 接 字 ， 不 过 任何 合 
有 敏感 数据 的 扩展 会 被 抹 除 。 








习题 
19.1 编写 一 个 程序 ， 打 开 一 个 pF_kEY 套 接 字 后 显示 从 中 收取 的 所 
有 消息 ? 


19.2 访问 IETF IPsec 工作 组 的 网 


页 http://www .ietf.org/html.charters/ipsec-charter.html， 找 出 由 该 工作 组 创 
建 的 用 于 替换 IKE 的 新 协议 。 
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也 本 书 第 3 版 新 作者 对 于 若干 概念 存在 一 些 误解 ， 这 里 是 其 中 之 一 。 反 
重 放 (也 称 为 重 放 保 护 ) 与 静态 生成 密 钥 没有 任何 关系 。 反 重 放 是 一 个 
时 效 性 相当 强 的 概念 ， 通 常情 况 下 远 小 于 密 钥 的 有 效 期 。 密 钥 的 有 效 期 
可 以 设置 得 相当 长 〈 如 香干 年 ) ， 主 要 取决 于 密 钥 的 强度 和 同时 代 计 算 
能 力 破解 密 钥 可 能 花费 的 时 间 ; 这 也 是 密 钥 可 以 通过 帝 外 手段 静态 生成 
的 理由 之 一 。 反 重 放 通常 有 时 间 惟 (timestamp〉 和 现时 (nonce〉 两 种 
手段 。 前 者 为 每 个 分 组 指定 一 个 到 达 时 间 窗 口 ， 不 在 该 窗口 内 到 达 的 分 
组 视 为 被 重 放 的 分 组 而 丢弃 ， 条 件 是 源 和 目的 主机 时 间 基 本 同步 。 后 者 
仅 适 用 于 一 对 主机 彼此 交 蔡 发 送 分 组 的 场合 〈 壁 如 事务 处 理 ) ， 通 过 严 
格 锁 步 达到 反 重 放 目 的 ， 源 和 目的 主机 时 间 无 需 同步 。 一 一 译 者 注 


@ 手 工 静 态 创建 的 SA 和 动态 创建 的 SA 相 比 实际 上 只 缺乏 LARVAL 这 个 
状态 译 者 注 


7G o 




















第 20 草 广播 


20.1 概述 


我 们 将 在 本 章 和 下 一 章 分 别 介绍 广播 broadcasting) 和 多 播 
(multicasting) 。 本 书 迄 今 为 止 的 所 有 的 例子 处 理 的 都 是 单 播 
Cunicasting) : 一 个 进程 就 与 另 一 个 进程 通信 。 实 际 上 TCP 只 文 持 单 播 
E ME 图 20-1 比 较 了 不 同类 型 的 
寻 址 方式 。 





v6 | Tcr | UDP | 所 标识 接口 数 | 递送 到 接 门 数 
e Ap 个 

组 中 的 一 个 

组 中 的 全 伍 

全 体 





图 20-1 不 同 的 寻 址 方式 


IPV6 往 寻 址 体系 结构 中 增加 了 任 播 (anycasting) 方式 。RFC 

1546 [ Partridge, Mendez, and Milliken 1993] 讲述 了 一 个 IPv4 任 播 版 本 ， 

它 从 未 广泛 部 普 过 。IPv6 任 播 则 定义 在 RFC 3513 [Hinden and Deering 
2003」 中 。 任 播 允 许 从 一 组 通常 提供 相同 服务 的 主机 中 选择 一 个 (一 般 
是 选择 按 某 种 测度 而 言 离 源 主机 最 近 的 ) 。 通 过 适当 地 配置 路 由 ， 并 在 
多 个 位 置 往 路 由 协议 中 注入 同一 个 地 址 ， 多 个 IPv4 或 IPv6 主 机 可 以 提供 
该 地 址 的 任 播 服 务 。 然 而 RFC 3513 的 任 播 只 允许 路 由 器 拥有 任 播 地 址 ， 

主机 可 能 无 法 提供 任 播 服务 。 编 写本 书 时 还 没有 使 用 任 播 地 址 的 API 可 

用 。 细 化 IPv6 任 播 体 系 结构 的 工作 仍 在 进展 之 中 ， 将 来 的 主机 也 许 能 够 
动态 地 提供 任 播 服务 。 
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图 20-1 中 的 要 点 是 : 


e 多 播 支 持 在 IPv4 中 是 可 选 的 ， 在 IPv6 中 却 是 必需 的 ; 


。 IPv6/^ SC HE]. Hh. EH TRUTJEETIIPVAINL ee — EUER PIP 
必须 改 用 多 播 重 新 编写 ; 
。 广播 和 多 播 要 求 用 于 UDP 或 原始 IP， 它 们 不 能 用 于 TCP。 


广播 的 用 途 之 一 是 在 本 地 子 网 定位 一 个 服务 嚣 主机， 前 提 是 已 知 或 
认定 这 个 服务 器 主机 位 于 本 地 子 网 ， 但 是 不 知道 它 的 单 播 IP 地 址 。 这 种 
操作 也 称 为 资源 发 现 (resource discovery) 。 男 一 个 用 途 是 在 有 多 个 客 
户主 机 与 单个 服务 器 主机 通信 的 局 域 网 环境 中 尽量 减少 分 组 流通 。 出 于 
这 个 目的 使 用 广播 的 因特网 应 用 有 多 个 例子 。 





e ARP (Address Resolution Protocol， 地 址 解析 协议 ) 。ARP 并 不 是 
一 个 用 户 应 用 ， 而 是 IPv4 的 基本 组 成 部 分 之 一 。ARP 在 本 地 子 网 上 
广播 一 个 请 求 说 “IP 地 址 为 a.b.c.d 的 系统 亮 明 身 份 ， 告 诉 我 你 的 硬件 
地 址 *”。ARP 使 用 链 路 层 广播 而 不 是 IP 层 广播 。 

DHCP (Dynamic Host Configration Protocol， 动 态 主机 配置 协 
议 ) 。 在 认定 本 地 子 网 上 有 一 个 DHCP 服 务 器 主机 或 中 继 主 机 的 前 
提 下 ，DHCP 客 户主 机 向 广播 地 址 (通常 是 255.255.255.255， 因 为 
客户 还 不 知道 自己 的 IP 地 址 、 子 网 掩 码 以 及 本 子 网 的 受 限 广播 地 
tk) 发 送 自己 的 请 求 。 

NTP (Network Time Protocol， 网 络 时 间 协 议 ) 。NTP 的 一 种 常见 
使 用 情形 是 客户 主机 配置 上 待 使 用 的 一 个 或 多 个 服务 器 主机 的 IP 地 
址 ， 然 后 以 某 个 频 度 〈 每 隔 64 秒 钟 或 更 长 时 间 一 次 ) 轮 询 这 些 服务 
器 主机 。 根 据 由 服务 器 返 送 的 当前 时 间 和 到 达 服 务 器 主机 的 RTT， 
客户 使 用 精妙 的 算法 更 新 本 地 时 钟 。 然 而 在 一 个 广播 局 域 网 上 ， 服 
务 器 主机 却 可 以 为 本 地 子 网 上 的 所 有 客户 主机 每 隔 64 秒 钟 广播 一 次 
当前 时 间 ， 免 得 每 个 客户 主机 各 上 自 轮 询 这 个 服务 器 主机 ， 从 而 减少 
网 络 分 组 流通 量 。 

路 由 守护 进程 。routed 是 最 早 实现 且 最 常用 的 路 由 守护 进程 之 一 ， 
它 在 一 个 局 域 网 上 广播 自己 的 路 由 表 。 这 么 一 来 连接 到 该 局 域 网 上 
的 所 有 其 他 路 由 器 都 可 以 接收 这 些 路 由 通告 ， 而 无 须 事先 为 每 个 路 
由 器 配置 其 邻居 路 由 器 的 IP 地 址 。 这 个 特性 也 能 被 该 局 域 网 上 的 主 
机 用 于 监听 这 些 路 由 通告 ， 并 相应 地 更 新 各 自 的 路 由 表 。RIP 第 2 版 
既 允 许 使 用 多 播 ， 也 人 允许 使 用 广播 。 


我 们 必须 指出 ， 多 播 可 以 项 人 背 广播 的 上 述 两 个 用 途 《〈 资 源 及 现 和 减 
人 
的 问题 。 
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20.2 ”广播 地 址 


我 们 可 以 使 用 记 法 { 子 网 ID， 主 机 ID} 表 示 一 个 IPv4 地 址 ， 其 中 子 网 
I 有 D 表 示 由 子 网 掩 码 (或 CIDR 前 级 ) 履 盖 的 连续 位 ， 主 机 ID 表示 以 外 的 
位 。 如 此 表示 的 广播 地 址 有 以 下 两 种 ， 其 中 -1 表示 所 有 位 均 为 1 的 字 


Bt. 





O 子 网 定向 广播 地 址 : { 子 网 ID，-1}。 作 为 指定 子 网 上 所 有 接口 
的 广播 地 址 。 举 例 来 说 ， 如 果 我 们 有 一 个 192.168.42/24 子 网 ， 那 么 
192.168.42.255 就 是 该 子 网 上 所 有 接口 的 子 网 定 问 广播 地 址 。 


通常 情况 下 路 由 器 不 转发 这 种 广播 〈TCPv2 第 226 一 227 页 ) 。 图 20- 
2 展示 了 连接 子 网 192.168.42/24 和 192.168.123/24 的 一 个 路 由 器 。 


于 网 192.168.42 





192.168.42.44 







192.168.123.33 


子 网 192.168.123 





( 单 播 数据 报 ) 
图 20-2 路 由 器 转发 子 网 定向 广播 分 组 吗 ? 


路 由 器 在 子 网 192.168.123/24 上 收 到 一 个 目的 地 址 为 
192.168.42.255〔 男 一 个 接口 的 子 网 定 加 三 播 地 址 〉 的 一 个 单 播 IP 数 据 


报 。 路 由 器 通常 情况 下 不 把 这 个 数据 报 转 发 到 子 网 192.168.42/24。 有 些 
系统 提供 一 个 允许 转发 子 网 定向 广播 数据 报 的 配置 选项 (TCPv1 附 录 
E) 。 


转发 子 网 定向 广播 分 组 反而 能 够 促成 称 为 放大 攻击 
(amplification〉 的 一 类 拒绝 服务 攻击 ， 例 如 ， 往 一 个 子 网 定 同 广播 地 
址 发 送 ICMP ”echo 请 求 将 造成 有 多 个 应 答 发 送 给 那个 受害 系统 。 再 加 上 
一 个 伪造 的 源 地 址 ， 会 导致 针对 该 系统 的 带宽 利用 攻击 ， 所 以 最 好 将 该 
配置 选项 关闭 。 


由 于 这 个 原因 ， 最 好 不 要 设计 依赖 子 网 定 加 广播 数据 报 之 转发 的 应 
用 程序 ， 除 非 是 在 可 以 安全 地 开局 该 选项 的 受 控 环 境 中 。 
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(2 受 限 广播 地 址 : {-1，-1} 或 255.255.255.255。 路 由 器 从 不 转发 目 
的 地 址 为 255.255.255.255 的 IP 数 据 报 。 











诸如 BOOTP 和 DHCP 等 应 用 在 自 举 过 程 中 把 255.255.255.255 用 作 目 
的 地 址 ， 因 为 此 时 客户 主机 还 不 知道 服务 器 主机 的 人 P 地 址 。 


问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 的 UDP 数 
据 报时 主机 怎么 做 ? 大 多 数 主 机 人 允许 发 送 这 种 广播 数据 报 〈 假 设 进 程 已 
经 设置 了 so_BROADCAST 套 接 字 选 项 ) ， 并 把 该 目的 地 址 转换 成 外 出 接口 
A ce al) FREE. BSD/OS 3.0 有 一 个 名 为 TIP_ONESBCAST 的 套 接 字 选 
项 ， 一 旦 开启 就 不 论调 用 sendto 指 定 的 目的 地 址 是 子 网 定向 广播 地 址 还 
是 受 限 广播 地 址 一 律 由 内 核 设置 为 255.255.255.255。 


另 一 个 问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 的 
UDP 数据 报时 多 目的 主机 怎么 做 ?” 有 些 系统 只 在 主 接口 〈 第 一 个 被 配置 
的 接口 ) 上 发 送 单 个 广播 分 组 ， 其 中 的 目的 地 址 被 置 为 该 接口 的 子 网 定 
向 广播 地 址 (TCPv2 第 736 页 ) 。 其 他 系统 却 在 每 个 具备 广播 能 力 的 接 
口上 发 送 一 个 该 数据 报 的 副本 。RFC 1122 [Braden 1989] 的 节 对 于 本 
问题 “taking no stand”( 未 作 规 定 )。 然 而 为 了 便于 移植 ， 如 果 应 用 进程 
需要 从 每 个 具备 广播 能 力 的 接口 发 送 同一 个 广播 数据 报 ， 它 就 应 该 首先 
获取 各 个 接口 的 配置 〈17.6 节 ) ， 然 后 对 每 个 具备 广播 能 力 的 接口 执行 
一 个 目的 地 址 指定 为 该 接口 之 子 网 定向 广播 地 址 的 sendto 调 用 。 








20.3 单 播 和 广播 的 比较 


在 但 看 广播 之 前 ， 我 们 有 必要 搞 清 楚 问 一 个 单 播 地 址 发 送 一 个 UDP 
数据 报时 所 发 生 的 步骤。 图 20-3 展 示 了 菏 个 以 太 网 上 的 3 个 主机 。 
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图 20-3 UDP 数据 报 单 播 示例 


图 中 以 太 网 子 网 地 址 为 192.168.42/24， 其 中 24 位 作为 子 网 ID， 剩 下 
8 位 作为 主机 ID。 左 侧 的 应 用 进程 在 一 个 UDP 套 接 字 上 调用 sendto 往 IP 
地 址 192.168.42.3 端 口 7433 发 送 一 个 数据 报 。UDP 层 对 它 冠 以 一 个 UDP 
首部 后 把 UDP 数据 报 传递 到 IP 层 。IP 层 对 它 冠 以 一 个 IPv4 首 部 ， 确 定 其 
外 出 接口 ， 在 以 太 网 情况 下 还 激活 ARP 把 目的 耳 地 址 映射 成 相应 的 以 太 
网 地 址 : 00::95:79:bc:b4. 该 分 组 然后 作为 一 个 目的 以 大 网 地 址 为 这 个 
48 位 地 址 的 以 太 网 帧 发 送出 去 。 该 以 太 网 帧 的 帧 类 型 字段 值 为 表示 IPv4 
分 组 的 gxo890。IPv6 分 组 的 帧 奖 型 为 ox86dd。 


中 间 主 机 的 以 太 网 接口 看 到 该 帧 后 把 它 的 目的 以 太 网 地 址 与 上 自己 的 
以 太 网 地 址 〈00:04:ac:17:bf:38) 进行 比较 。 既 然 它 们 不 一 致 ， 该 接口 于 
是 忽略 这 个 帧 。 可 见 单 播 帧 不 会 对 该 主机 造成 任何 额外 开销 ， 因 为 忽略 
它们 的 是 接口 而 不 是 主机 。 


右 侧 主机 的 以 太 网 接口 也 看 到 该 帧 ， 当 它 比 较 该 帧 的 目的 以 太 网 地 
址 和 自己 的 以 太 网 地 址 时 ， 会 发 现 它 们 相同 。 该 接口 于 是 读 入 整个 帧 ， 
读 入 完毕 后 可 能 产生 一 个 硬件 中 断 ， 致 使 相应 设备 驱动 程序 从 接口 内 存 
人 
入 队列 。 
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当 IP 层 处 理 该 分 组 时 ， 它 首先 比较 该 分 组 的 目的 IP 地 址 
(192.168.42.3) 和 自己 所 有 的 IP 地 址 。 “我 们 知道 主机 可 以 多 宿 ， 另 外 
回顾 一 下 我 们 在 8.8 节 就 强 端 系统 模型 和 弱 端 系统 模型 进行 的 讨论 。) 
既然 这 个 目的 地 址 是 本 主机 自己 的 IP 地 址 之 一 ， 该 分 组 于 是 被 接受 。 


IP 层 接着 查看 该 分 组 IPv4 首 部 中 的 协议 字段 ， 其 值 为 表示 UDP 的 
17。 该 分 组 承载 的 UDP 数 据 报 于 是 被 传递 到 UDP 层 。 


UDP 层 检查 该 UDP 数据 报 的 目的 端口 《如 果 其 UDP 套 接 字 已 经 连 
接 ， 那 么 还 检查 源 端 口 ) ， 接 着 在 本 例子 中 把 该 数据 报 置 于 相应 套 接 字 
的 接收 队列 。 必 要 的 话 UDP 层 作为 内 核 一 部 分 唤醒 阻塞 在 相应 输入 操作 
上 的 进程 ， 由 该 进程 读 取 这 个 新 收取 的 数据 报 。 


本 例子 的 关键 点 是 单 播 卫 数据 报 仅 由 通过 目的 耳 地 址 指定 的 单个 主 
机 接收 。 子 网 上 的 其 他 主机 都 不 受 任何 影响 。 
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我 们 接着 考虑 一 个 类 似 的 例子 ， 同样 的 子 网 ， 不 过 发 送 进程 发送 的 


是 一 个 目的 地 址 为 子 网 定向 广播 地 址 192.168.42.255 的 数据 报 。 图 20-4 展 
示 了 这 个 例子 
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图 20-4 ”UDP 数据 报 广播 示例 


当 左 侧 的 主机 发 送 该 数据 报时 ， 它 注意 到 目的 IP 地 址 是 所 在 以 太 网 
的 子 网 定 辐 广播 地 址 ， 于 是 把 它 映射 成 48 位 全 为 1 的 以 太 网 地 
hb: ff:ff:ff:ff:ff:ff。 这 个 地 址 使 得 该 子 网 上 的 每 一 个 以 太 网 接口 
都 接收 该 帧 ， 图 中 右 侧 两 个 运行 IPv4 的 主机 自然 都 接收 该 帧 。 既 然 以 太 
网 帧 类 型 为 oxgo8609， 这 两 个 主机 于 是 都 把 该 帧 承载 的 分 组 传递 到 IP 层 。 
既然 该 分 组 的 目的 人 P 地 址 匹配 两 者 的 广播 地 址 ， 并 且 协 议 字 段 为 
17 (UDP) ， 这 两 个 主机 于 是 都 把 该 分 组 承载 的 UDP 数据 报 传递 到 
UDP 。 


右 侧 的 那个 主机 把 该 UDP 数据 报 传递 给 绑 定 端口 520 的 应 用 进程 。 
一 个 应 用 进程 无 需 就 为 接收 广播 UDP 数据 报 而 进行 任何 特殊 处 理 : 它 只 
需要 创建 一 个 UDP 套 接 字 ， 并 把 应 用 的 端口 号 捆绑 到 其 上 。 “我 们 假设 
捆绑 的 IP 地 址 是 典型 的 INADDR_ANY。) 


然而 中 间 的 那个 主机 没有 任何 应 用 进程 绑 定 UDP 端口 520。 该 主机 
的 UDP 代码 于 是 丢 径 这 个 已 收取 的 数据 报 。 该 主机 绝 不 能 发 送 一 个 
ICMP inf AANA, ALA a tC Er E MLE Cbroadcast 


H MSN E1520 








storm) ， 即 子 网 上 大 量 主 机 几乎 同时 产生 一 个 响应 ， 导 致 网 络 在 一 段 
时 间 内 不 可 用 。 男 外 发 送 该 数据 报 的 主机 如 何 处 理 这 些 ICMP 出 错 消 居 
也 成 问题 : 有 的 接收 主机 报告 了 错误 ， 有 的 未 报告 ， 那 得 怎么 办 ? 
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我 们 还 在 图 中 表示 出 由 左 侧 主 机 发 送 的 数据 报 也 被 递送 给 自己 。 这 
是 广播 的 一 个 属性 ， 根 据 定 义 ， 广 播 分 组 去 往 子 网 上 的 所 有 主机 ， 包 括 
发 送 主机 自身 (CTCPv2 第 109 一 110 页 ) 。 我 们 假设 发 送 应 用 进程 还 绑 定 
自己 要 发 送 到 的 端口 520) ， 这 样 它 将 收 到 上 自己 发 送 的 每 个 广播 数据 
报 的 一 个 副本 。 《然而 一 般 说 来 ， 发 送 UDP 广 播 数据 报 的 应 用 进程 并 不 
需要 捆绑 这 些 数据 报 的 目的 端口 。) 


我 们 在 图 中 展示 了 由 IP 层 或 数据 链 路 层 执行 的 一 个 逻辑 回馈 ， 通过 
这 个 回 饥 ， 每 个 数据 报 被 复制 一 份 并 沿 协议 栈 癌 上 传送 (CTCPv2 第 109 
—11091) 。 网 络 子 系统 也 可 以 使 用 物理 回馈 ， 不 过 这 么 做 在 网 络 存 在 
故障 条 件 下 例如 没有 终结 的 以 太 网 ) 会 导致 问题 。 


本 例 展示 了 广播 存在 的 根本 问题 ， 子 网 上 未 参加 相应 广播 应 用 的 所 
有 主机 也 不 得 不 沿 协议 栈 一 路 向 上 完整 地 处 理 收 取 的 UDP 广 播 数 据 报 ， 
直到 该 数据 报 历经 UDP 层 时 被 丢弃 为 止 。( 回 顾 我 们 就 图 8-21 展 开 的 讨 
ie. ) 另外 ， 子 网 上 所 有 非 卫 的 主机 《例如 运行 Novell IPX 的 主机 ) 也 
不 得 不 在 数据 链 路 层 接收 完整 的 帧 ， 然 后 再 丢弃 它 〈 假 设 这 些 主机 不 文 
该 帧 的 帧 类 型 ， 对 于 IPv4 分 组 就 是 ox68606，) 。 要 是 运行 着 以 较 高 速率 产 
生 IP 数 据 报 的 应 用 例如 音频 、 视 频 应 用 〉 ， 这 些 非 必要 的 处 理 有 可 能 
严重 影响 子 网 上 这 些 其 他 主机 的 工作 。 我 们 将 在 下 一 章 看 到 多 播 是 如 何 
在 一 定 程度 上 解决 本 问题 的 。 


我 们 在 图 20-4 中 选择 UDP 端口 为 520 是 有 意 的 。 该 端口 由 routed 守 
护 进程 用 于 交换 RIP 分 组 。 一 个 子 网 上 使 用 RIP 版 本 1 的 所 有 路 由 器 每 隔 
30 秒 钟 发 送 一 个 UDP 广 播 数据 报 。 如 果 该 子 网 上 存在 200 个 系统 (包括 2 
个 使 用 RIP 的 路 由 嚣 ，， 那 么 作为 主机 的 其 余 198 个 系统 将 不 得 不 每 隔 30 
秒 钟 就 处 理 ( 并 丢弃 ) 一 次 这 些 广播 数据 报 〈 假 设 这 198 个 主机 无 一 运 
行 routed) 。RIP 第 2 版 改 用 多 播 解 决 这 个 问题 。 

















20.4 (HHI) fh dg clik% 


我 们 再 次 修改 dg_c1li 函 数 ， 这 次 允许 它 同 UDP 标 准 daytime 服 务 器 
(图 2-18) 广播 发 送 请 求 ， 然 后 显示 所 有 应 答 。 我 们 对 main 函 数 《〈 图 8- 
7) 所 做 的 唯一 改动 是 把 目的 端口 号 改 为 13: 


servaddr.sin port = htons(13); 


我 们 首先 随 未 修改 的 dg_c1ii 函 数 〈( 图 8-8) 编译 经 修改 的 main 函 数 ， 
并 在 主机 freebsd 上 运行 它 。 


freebsd % udpcli01 192.168.42.255 


hi 
sendto error: Permission denied 


命令 行 参数 是 该 主机 第 二 个 以 太 网 接口 的 子 网 定向 广播 地 址 。 我 们 
键入 一 行文 本 ， 程 序 调用 sendto， 结 果 返 回 EAccES 错 误 。 我 们 收 到 这 个 
音 误 的 原因 在 于 ， 除 非 显 式 告诉 内 核 我 们 准备 发 送 广播 数据 报 ， 人 否则 系 
允许 我 们 这 么 做 。 我 们 通过 设置 so_BRoADCAST 套 接 字 选 项 来 做 到 这 
二 


源 目 Berkeley 的 实现 实施 这 种 健全 性 检查 。 而 对 于 Solaris 2.5， 即 使 
不 指定 So_BROADCAST 套 接 字 选项 也 能 接受 目的 地 址 为 广播 地 址 的 数据 
报 。POSIX 规 范 要 求 发 送 广播 数据 报 必须 设置 该 套 接 字 选 项 。 


对 于 不 存在 S0_BROADCAST 套 接 字 选 项 的 4.2BSD 来 说 ， 广 播 是 一 个 特 
B 该 选项 增设 到 4.3BSD 之 后 ， 任 何 进程 都 允许 设置 它 以 执行 广播 
"E, 


我 们 现在 按 图 20-5 所 示 方 式 修改 dg_c1li 函 数 。 这 个 版 本 设 
置 So_BROADCAST 套 接 字 选项 并 显示 在 5 s 内 收 到 的 所 有 应 答 。 





beastidectibcastl.c 
1 #include "uap.h" 


2 static void recvfrcom alzzmlint); 


3 void 

4 dg cli(lFILE *fp, int sockfd, cons- SA *pservadzr, socklen t scrv.en) 
oA 

6 int te 

7 conct int cn = -; 

6 char sendline[NAXLIND , recvlineINAXLING + 11; 

a sockler t len; 

10 struct sockaddr *preply aZdr; 

xd preply addr = Malloc(servien); 

12 Setaockopt(sccxfd, SOL_SOCKET, SO_BROADCAST, &cn, aizecf(on)!; 
13 Signal (SIGALRM, recvfrom sl&rw-!; 

14 while (Fgets(sendline, MAXLINE, fa) !z WNT, | 

15 Sendto(sockfd, sendline, strlen(serdline), 0, pservaddr, servlen); 
16 a.axrmis5); 

17 tor (73) f 

18 len = acfvlcn; 

19 n = recvirom(sockE—d, recvline. MBXLINE, 2, preply_acdr. é&len); 
20 if in< 0) { 
21 if (ercng == EINTR) 

2 break; /* waited lcng enough for replies */ 
23 alze 
24 err sys!'recvfrcn error"): 
25 ) eise | 
26 recvline[n, = 0; /* null terminate */ 
27 printf("£rom ts: ts", 
28 Sock_atop_hos=ipreply_addr, len), secvline); 
29 } 

an ) 

31 ) 

32 freeipreply addr); 

33 } 


34 static void 

35 recvfrom alarn(inat signa! 

36 | 

37 return; /* juet anterrupt the recvtron() */ 
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图 20-5 广播 请 求 的 dg_cli 函 数 
给 服务 器 地 址 分 配 空 间 ， 设 置 套 接 字 选项 


11-13 ”malloc 为 由 recvfrom 返 回 的 服务 器 地 址 分 配 空 间 。 设 
置 so_BRoADCAST 套 接 字 选项 ， 并 安装 一 个 SIGALRM 信 号 处 理 函 数 。 


从 标准 输入 读 取 一 行 ， 发 送 至 套 接 字 ， 读 取 所 有 应 答 
14-24 ”以 下 两 步 ( 即 fgets 和 sendto) 类似 该 函数 以 前 的 版 本 。 人 然 


而 既然 发 送 的 是 一 个 广播 数据 报 ， 我 们 可 能 因此 收 到 多 个 应 答 。 我 们 在 
一 个 循环 中 调用 recvfrom， 并 显示 在 5 秒 钟 内 收 到 的 所 有 应 答 。5 秒 钟 后 
系统 产生 SIGALARM 信 号 ， 其 信号 处 理 函 数 被 调用 ， 导 致 recvfrom 返 回 
EINTR 错 误 。 


输出 收 到 的 每 个 应 答 


25-29 我们 对 收 到 的 每 个 应 答 都 调用 sock_ntop_host， 让 该 函数 以 
点 分 十 进 制 数 格式 返回 服务 器 的 IP 地 址 〈 假 设 IPv4 情 形 ) 。 服 务 器 IP 地 
址 和 来 自 它 的 应 答 一 道 显 示 。 


Lt y LR: X » x v2, imi N uU 
如 果 指 定 192.168.42.255 这 个 子 网 定向 广播 地 址 运行 本 程序 ， 我 们 
AA + 
得 到 如 下 结果 : 
freebsd % udpc1i01 192.168.42.255 
hi 
from 192.168.42.2: Sat Aug 2 16:42:45 2003 
from 192.168.42.1: Sat Aug 2 16:42:45 2003 
from 192.168.42.3: Sat Aug 2 16:42:45 2003 
hello 
from 192.168.42.3: Sat Aug 2 16:42:57 2003 
from 192.168.42.2: Sat Aug 2 16:42:57 2003 
from 192.168.42.1: Sat Aug 2 16:42:57 2003 


我 们 必须 每 次 键入 一 行文 本 以 产生 UDP 数据 报 和 输出。 我们 每 次 收 到 
3 个 应 答 ， 其 中 有 一 个 来 目 发 送 主机 本 身 。 如 前 所 述 ， 广 播 数 据 报 的 目 
的 主机 是 包括 发 送 主 机 在 内 的 接 入 同一 个 子 网 的 所 有 主机 。 所 有 应 答 数 
d esum 的 ， 因 为 作为 其 目的 地 址 的 请 求 数据 报 源 地 址 是 一 个 单 播 


所 有 系统 都 报告 同样 的 时 间 ， 这 是 因为 它们 都 运行 NTP。 
IP 分 片 和 广播 


源 目 Berkeley 的 内 核 不 允许 对 广播 数据 报 执行 分 片 。 对 于 目的 地 址 
是 广播 地 址 的 耳 数据 报 ， 如 果 其 大 小 超过 外 出 接口 的 MTU， 发 送 它 的 系 
统 调用 将 返回 EMsGsIZE 错 误 〈TCPv2 第 233 一 234 页 ) 。 这 是 一 个 自 
BSD4.2 以 来 就 存在 的 决策 。 不 允许 内 核对 广播 数据 报 执 行 分 片 的 理由 并 
不 充分 ， 感 觉 上 是 既然 广播 已 经 施加 给 网 络 相 当 大 的 负担 ， 再 因 分 片 而 
造成 这 个 负担 倍 乘 片段 的 数量 就 更 不 应 该 。 
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我 们 可 以 使 用 图 20-5 中 的 程序 观察 这 种 情形 。 我 们 将 标准 输入 重 定 
pom E 它 将 导致 在 以 太 网 


freebsd % udpcli01 192.168.42.255 < 2000line 
sendto error:Message too long 





AIX、FreeBSD 和 MacOS 都 实施 了 这 种 限制 。Linux、Solaris 和 HP- 
UX 都 允许 对 目的 地 址 为 广播 地 址 的 数据 报 进行 分 片 。 然 而 为 了 便于 移 
植 起 见 ， 需 要 广播 的 应 用 程序 应 该 使 用 SIocGIFMTU ioct1 确 定 外 出 接口 
的 MTU， 从 中 扣除 IP 首 部 和 UDP 首 部 的 长 度 得 到 最 大 净 荷 大 小 。 如 果 是 
在 局 域 网 上 上， 那么 可 以 把 广播 数据 报 大 小 限制 在 1472 字 节 以 内 〈1472 根 
e ， 因 为 局 域 网 中 以 太 网 的 MTU 通 和 常 是 
最 小 的 。 











20.5 “竞争 状态 


当 有 多 个 进程 访问 共享 的 数据 ， 而 正确 结果 取决 于 进程 的 执行 顺序 
时 ， 我 们 称 这 些 进 程 处 于 苋 争 状态 (race condition) 。 由 于 在 典型 的 
Unix 系 统 中 进程 的 执行 顺序 取决 于 每 回 都 会 发 生变 化 的 众多 因素 ， 因 此 
处 于 苋 争 状态 的 进程 有 时 产生 正确 的 结果 ， 有 时 产生 不 正确 的 结果 。 最 
难 调 试 的 一 类 苋 争 状态 是 通常 情况 下 结果 正确 ， 侦 尔 才 发 生 结 果 不 正 确 
现象 的 那些 。 我 们 将 在 第 26 章 讨论 互 斥 变量 和 条 件 变 量 时 进一步 探讨 兖 
争 状 态 类 型 。 竞 争 状态 对 于 线程 化 编程 始终 是 一 个 关注 点 ， 因 为 在 线程 
之 间 共 享 着 如 此 之 多 的 数据 〈 如 所 有 的 全 局 变量 ) 。 
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当 涉 及 信号 处 理 时 ， 往 往 会 出 现 另 一 种 类 型 的 竞争 状态 。 发 生 问题 
的 原因 在 于 信和 号 会 在 程序 执行 过 程 中 由 内 核 随时 随地 递交 。POSIX 人 允许 
我 们 临时 阻塞 某 些 信号 的 递交 ， 不 过 在 进行 WO 操作 时 往往 没有 多 少 用 
处 。 


了 解 欧 争 状态 问题 最 简单 方法 是 考察 例子 。 图 20-5 中 存在 一 个 苋 争 
状态 ， 花 几 分钟 时 间 细 该 一 下 ， 看 看 你 能 售 找 出 它 来 。 《提示 : 当 信 和 号 
被 递交 时 我 们 可 能 正在 哪里 执行 ?) 你 还 可 以 按 如 下 做 法 强行 产生 该 竞 
AS: 把 alarm 的 参数 从 5 改 为 1， 在 printf 紧 前 增加 sleep(1)。 


对 函数 做 了 这 些 修改 后 我 们 键入 第 一 个 输入 文本 行 ， 它 被 作为 一 个 
广播 数据 报 发 送出 去 ，1 秒 钟 的 alarm 报 警 时 钟 也 同时 启动 。 我 们 随后 阻 
塞 在 recvfrom 调 用 中 ， 第 一 个 应 答 可 能 在 数 室 秒 内 到 达 我 们 的 套 接 字 。 
该 应 答 由 recvfrom 返 回 后 ， 我 们 进入 1 秒 钟 的 睡眠 期 。 其 他 应 答 陆 续 到 
达 后 被 置 于 我 们 的 套 接 字 接收 缓冲 区 。 然 而 就 在 我 们 睡眠 期 间 ，alarm 
定时 器 到 时 ， 从 而 产生 sIGALRM 信 号 : 我 们 的 信号 处 理 函 数 被 调用 ， 而 
且 它 只 是 返回 并 中 断 让 我 们 阻塞 在 其 中 的 sleep 调 用 。 我 们 接着 循环 回 
去 ， 每 读 入 一 个 已 经 在 套 接 字 接收 绥 冲 区 中 排队 的 应 答 就 先 暂停 1 秒 钟 
再 显示 其 内 容 。 当 人 处理 完 所 有 的 应 管 时 我 们 再 次 阻塞 在 recvfrom 调 用 
中 ， 而 此 时 定时 器 已 不 再 运转 ， 我 们 于 是 将 永远 阻塞 在 recvfrom 中 。 这 
里 的 根本 问题 是 : 尽管 我 们 的 意图 是 让 信号 处 理 函 数 中 断 某 个 阻 赛 中 的 
recvfrom， 然 而 信号 却 可 以 在 任何 时 刻 被 递交 ， 当 它 被 递交 时 ， 我 们 可 





























能 在 无 限 for 循 环 中 的 任何 地 方 执行 。 


我 们 接 下 去 讨论 本 问题 的 4 个 解决 办 法 ， 其 中 1 个 是 不 正确 的 ， 夯 外 
3 个 是 正确 的 。 


20.5.1 阻 赛 和 解 阻塞 信和 号 


第 一 个 〈 不 正确 的 ) 办 法 是 在 执行 for 循 环 的 其 他 部 分 期 间 通 过 阻 
塞 信号 的 递交 来 减 小 出 错 的 窗口 。 图 20-6 给 出 了 这 个 新 版 本 。 
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Ecastideclbcast3.z 
1 #include 'unp.:* 
2 static void vecvfron_alarm(inr) ; 
^ vpid 
4 dg cli(FILS “fp, int sockic, ccnst SA *"pservaddr, socklen - servlen) 
E 
€ int n; 
3 cors- int on - 1; 
g char senilins(MAXLINE), recvline (MAXLINE + 1); 
$ sigset_t sigsst_alrm; 
1C £ocklen t len; 
11 struct sockad?r *breply addr; 
lz preply adds = Mallociservicn) ; 
2 Setscckopt(sozkfd, SOL SOCKET, SC_BROADCAST, son, sizeof(on)!; 
14 S:gemrptyseti&sigset aln); 
1£ Sicaddse-i(&sicset alrm, STSALRM); 
Le Sicnal (SIGALKM, rscvfrom alarm) ; 
17 while (Pacts(serdl:ne, MAXLINE, tp! != NULL) { 
1E Sen3to|sockfd, sencline, s-rlen(stniline). 0, pservaddr, servlen); 
15 alarm!5) 
2C | 
21 len = servlen; 
22 Sigprcemask (STG_IMRLOACK, &sigset_al rm, NULDL!; 
23 n = recvfromisockfc, recvline, MAXLINS, ©, prezly addr, &len); 
24 BSigprccmask(SIC BLCCK, &sigset_alrm, NULL); 
25 it (n< 0) [ 
2€ if (errno == EINIR) 
25 break; /* waited long enough far repliea */ 
2t elss 
29 err_sy3("recvtror. error"); 
ac } elsa ( 
31 -sCcuvline[n] = C; /* mr]! -ermirare =/ 
32 prictf;*'from $s: $a", 
33 Sock_ntop_host (preply addz, len], recvlinel; 
34 } 
35 } 
36 
35 free (preply_acdr) ; 
3€ } 
39 Etatic void 
4C re^vfrcm alz*m[(in- signa) 
41 ( 
42 return, /* just interrupt the recvfrom(! */ 
42 } 


Feasvdgol'bcasrs. o 











图 20-6 在 for 循 环 内 执行 期 间 阻 塞 信号 〈 不 正确 办 法 ) 
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声明 信号 集 并 初始 化 


14-15 “声明 一 个 信号 集 ， 把 它 初始 化 为 空 集 Csigemptyset) ， 再 
打开 与 SIGALRM 对 应 的 位 Csigaddset) . 


fet BHL fei er RI EH E fri s 


21-24 dEWi|HlrecvfromBi, dX E H3ESsIGALRM[H m CU EGAL TE 
阻塞 在 该 调用 期 间 该 信号 能 被 递交 ) ; 在 recvfrom 返 回 后 ， 我 们 立即 阻 
塞 该 信号 。 如 果 SIGALRM 信 号 产生 “〈 即 定时 器 时 间 到 ) 时 该 信号 处 于 被 
阻塞 期 间 ， 那 么 内 核 将 记 住 这 个 事实 ， 但 是 不 递交 该 信号 〈 即 调用 其 信 
号 处 理 函 数 ) ， 直 到 该 信号 被 解 阻 塞 。 这 就 是 信号 的 产生 与 递交 之 间 本 
质 的 区 别 。APUE 第 10 章 提供 了 POSIX 信 号 处 理 所 有 这 些 方面 的 额外 细 
Xs 





如 果 编 译 运行 本 程序 ， 它 看 起 来 工作 正常 ， 然 而 存在 竞争 状态 的 大 
多 数 程序 在 大 多 数 情 况 下 照样 工作 正常 ! 该 程序 仍然 存在 的 一 个 问题 
是 : 解 阻塞 信号 、 调 用 recvfrom 和 阻塞 信号 都 是 互相 独立 的 系统 调用 。 
如 果 sIGALRM 信 号 恰 在 recvfrom 返 回 最 后 一 个 应 答 数 据 报 之 后 与 接着 阻塞 
该 信号 之 间 递 交 ， 那 么 下 一 次 调用 recvfrom 将 永远 阳 塞 。 我 们 已 经 缩小 
了 出 错 的 窗口 ， 但 是 问题 依然 存在 。 


; XP INANI SEHE (efi HOBBIES SURE PSEC BC ELIS 
局 Zn o 


static void 
recvfrom alarm(int signo) 





had alarm - 1; 
return; 


j 





每 次 调用 alarm 之 前 把 该 标志 初始 化 为 0。 我 们 的 dg_clLi 函 数 在 调 
用 recvfrom 之 前 检查 这 个 标志 ， 如 果 其 值 不 为 0 就 不 再 调用 recvfrom。 
for (; ;) ( 


len - servlen; 
Sigprocmask(SIG UNBLOCK, &sigset alrm, NULL); 


if (had alarm == 1) 
break; 
n - recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 


如 果 SITGALRM 信 号 是 在 它 被 阻塞 期 间 〈 即 和 目 上 一 次 recvfrom 返 回 
Ja) ， 或 者 在 它 被 这 段 代 码 解 阻塞 之 时 产生 ， 那 么 它 将 在 sigprocmask 
返回 之 前 递交 并 设置 标志 。 然 而 在 测试 标志 和 调用 recvfrom 之 间 仍 然 存 
在 一 个 较 小 的 时 间 窗 口 ， 期 间 sIGALRM 信 号 可 能 产生 并 递交 ; 如 果真 发 
生 该 情况 ， recvfrom 调 用 将 永远 阻塞 (当然 假定 不 再 收 到 额外 的 应 
答 ) 。 





20.5.2 Hijpselect[H 3E Fil ffe KH 3€ fei 5 
正确 办 法 之 一 是 使 用 pselect (6.977) ， 如 图 20-7 所 示 。 


541 


beastédaclibeasid c 
1 include "unp. h" 


2 static voice recuTroum alarm(int}; 


3 void 

4 da cli(FILS *fo, int sockfd, ccnst SA *pservacdr, sccklen t servlen} 
5 { 

6 inc n; 

7 const int or = 1; 

8 char sendlins[MAXLINE], recvline[MAXLINE + 1]: 

9 fà sel  ivxeL; 

1 wicwel L xicset slom, sicsec_empty; 

i sock ant len; 

a Birwct scckacdr ^zzeply addr: 

i3 preply_addr = Mallecicervlen!; 

1€ 5Be-sockcpt/scckfd, SUL SUCK, SO BHRUADCAST. &or, sizeof ion); 
15 PO_PRRO(orast | , 


1 Sicerpt yset (&siqset_eupty) ; 


17 Sicerpt yset (&s-jset alrw]; 

18 Sicadiset (&sigset alru, SIGALRM); 

i9 Sicmal(SIGALEM, recvires: alarm); 

20 while (Fgetr(sendline, MAXLINE, fp) != NULL! | 

21 Sendtoiseckf¢, sendline, strlenisendline), 0. pservaddr, servlen;; 
22 Sicprocmask(£lG SLOCK, asigset_al=m, NULL); 

23 alamis): 

24 for [1:231 

25 FD_SET‘cockfd, recti; 

26 n= peelectiscckfdil, &roect, NULL, NULL. MULL, &kcigeez enmpty!i; 
27 if (n« i! 4 

23 if itcrmmo -= EINTR) 

29 break; 

30 cise 

31 arr eys(*psalect error"); 

2 } alee if [n t= 1) 

33 €rr_sye("teelec= errer: returned $å", n); 

34 den = strvicn; 

35 n = Reevfromiseckfé, r2ovlinc, MAXLINE, 0, preply_addr, lsn); 
36 recsvline[n] = 0; f* ruil terminate */ 

" printf ("from ðs: $5", 

38 Scck n-op ncat/preply addr, len), re-vlinc!: 

39 ] 

40 ] 

41 tree ipreply addr): 

42 


43 atatic voic 

44 recvf-cm alarmiint signo) 

45 ( 

4G return; /* juat interrupt the recvtrom() */ 


Deus Pelact becas c 


图 20-7 ”使 用 pselect 阻 塞 和 解 阻塞 信号 


22-33 ”阻塞 SIGALRM 并 调用 pselect。pselect 最 后 一 个 参数 是 指 
问 sigset_empty 变 量 的 一 个 指针 。 sigset_empty 是 一 个 没有 任何 信和 号 被 


阻塞 的 信号 集 ， 也 束 是 说 其 所 有 信和 号 都 是 解 阻 蹇 的 。pselect 保 存 当 前 

信号 掩 码 《〈 其 中 只 有 SIGALRM 信 号 被 阻塞 )》 ， 测 试 指 定 的 描述 符 ， 如 果 
要 则 把 进程 信号 掩 码 设置 为 空 集 再 阻塞 进程 。 然 而 在 返回 之 

前 ，pselect 把 进程 信号 掩 码 恢 复 成 刚 被 调用 时 的 值 。pselect 的 关键 点 

EF: WET efe. DUCTA PA EUER STET SET JR 

进程 看 来 自 成 原子 操作 。 


34~38 ”如 果 套 接 字 变 为 可 读 ， 那 束 调 用 recvfrom， 我 们 知道 它 不 
ZHE. 


正如 6.9 节 所 提 ，pselect 是 一 个 新 增 的 POSIX 函 数 ， 在 图 1-16 中 的 
所 有 系统 中 ， 只 有 FreeBSD 和 Linux 支 持 它 。 无 论 如 何 ， 我 们 在 图 20-8 中 
给 出 了 它 的 一 个 尽管 不 正确 然而 简单 的 实现 。 给 出 这 个 不 正确 实现 的 原 
因 在 于 展示 pselect 涉 及 的 3 个 步 又 : (1) 保存 当前 ao feng, JPEG 
p eae (20 测试 描述 符 ， 以 及 〈3) 恢复 信 
Ej Jo 











—Q = ~iib/pselecic 
9 fircluce "unp.h" 








10 int 
ll pselect (int rfós, fd sot ?reer, £4 sez 'wset, fd sot *xset, 


12 const struct timespec "ts, const sigset t *sigmask! 

13 

14 int n; 

15 struct timmeva. Lv? 

16 siqze- t cavemaes; 

17 if (ts t= NULL) ( 

18 tv.tv sec = ts-»tv Sec, 

19 tv.tv usec = ts-stv nsec / 1020; /* nanosec -> microsec */ 
20 

eal eigoreemask (SIS sEIMASK, csigmse«, &savemask;; /* caller's mask */ 
22 n s selectinfds, rsez, wset, xsst, (ts == NULL) 7 NULL : &tv!; 
a3 sigoreemask (SIS sEIMASK, &savemask, NULL); /* restore mask */ 
24 return in); 

eS 


lilveseiéci.c 








图 20-8 ”pselect 的 一 个 简单 但 不 正确 的 实现 
20.5.3 ”使 用 sigsetjmp 和 siglongjmp 
解决 竞争 状态 问题 的 另 一 个 正确 办 法 并 非 利 用 信和 号 处 理 函 数 中 断 被 


阻塞 系统 调用 的 能 力 ， 而 是 从 信和 号 处 理 函 数 中 调用 siglongjmp。 我 们 称 
siglongjmp 为 非 局 部 跳 转 (nonlocal goto) ， 因 为 使 用 它 可 以 从 一 个 函 
数 跳 转 回 另 一 个 函数 。 图 20-9 展 示 了 这 个 技术 。 
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Ecastid'eclibcastS.c 


be 


Fincluce "unp.h* 
fincluse <Setjmp.h> 


3 static ved recvtrom alsrm;inl]; 


4 static sigjme buf jmpbuf; 
5 void 
€ dg cli (FILE *fp, int sockfd, const SA *pservadcr, socklen t serv_an) 
74 
6 int "i 
const int cn = 1: 
10 char sendline [MAXLINE: , recvline[NAXLINE + 1]; 
11 secklen_t len; 
12 struct sockaddr “preply_acdr, 
13 porply acdr = Mallociservier:); 
14 Setsockopt(sockfd, SOL SOCKET, SO BROADCAST, &cn, siízecf(on)!; 
15 Signsl(SIGALRM, recvirom à.srmj; 
16 while (Psets(sendline, MAXLINE. fp) !- NULL] | 
17 Benmdzo(sockfd, serdl-ne, strlen(serdl-ne), 0, pservad2r, servlen); 
1é alarm;5); 
19 for C 7-7.) 1 
26 if /3igsctjup!jwpzuf£, 1! 1= 0! 
21 ureak; 
22 len ~ servlen; 
23 n = Recviron(socktd, recvline, M^XLINE, J, preply_addr, &len); 
24 recvlinefnl = 0; /* null terminate */ 
25 princf ("iron 35: ks", 
26 Sock_ntop_hosrt (praply addr, lən], recvlíne;; 
27 } 
26 ) 
29 frre (prep) y_addr ; 
3u ) 


31 setstic void 

32 recvfrom alarn(int signo! 
33 4 

34 siglonsjup(jmpbuf, 1!; 


Ecasvdgolibesst5.c 





图 20-9 从 信和 号 处 理 函 数 中 使 用 sigsetjmp 和 siglongjmp 
分 配 跳 转 缓冲 区 
4 ”分配 一 个 将 由 本 函数 及 其 信号 处 理 函 数 使 用 的 跳 转 绥 冲 区 。 


调用 sigsetjmp 


20-23 ”从 dg_cli 函 数 中 直接 调用 sigsetjmp 时 ， 它 在 建立 跳 转 缓冲 
区 后 返回 0。 接 着 调用 recvfrom。 


处 理 sIGALRM 并 调用 siglongjmp 





31-35 ” 当 SIGALRM 信 号 被 递交 时 ， 我 们 调用 siglongjmp。 这 会 
使 dqg_c1li 函 数 中 的 sigsetjmp 人 返回 ， 返 回 值 为 siglongjmp 的 第 二 个 参数 
(1) ， 它 必须 是 一 个 非 0 值 。sigsetjmp 返 回 会 导致 dg_cli 中 的 for 循 环 
结束 。 


以 这 种 方式 使 用 sigsetjmp 和 siglongjmp 确 保 我 们 不 会 因为 信号 递交 
时 间 不 当 而 永远 阻塞 在 recvfrom 调 用 中 。 发 生 问 题 的 唯一 潜在 条 件 是 信 
写 在 printf 处 理 输 出 的 过 程 中 被 递交 。 我 们 可 以 从 printf 中 跳出 ， 并 返 
回 sigsetjmp。 不 过 这 可 能 会 使 printf 的 私有 数据 结构 前 后 不 一 致 。 为 了 
防止 出 现 这 种 情况 ， 我 们 应 该 把 网 20-6 中 的 信号 阻塞 和 解 阻 塞 办 法 结合 
非 局 部 跳 转 办 法 一 起 使 用 。 包 但 这 会 使 该 解决 方法 变 得 很 不 灵 便 ， 因 为 
任何 可 能 从 中 中 断 的 低 性 能 函数 周围 都 可 能 发 生 信号 阻塞 。 


20.5.4 ”使 用 从 信号 处 理 函 数 到 主 控 函 数 的 IPC 


解决 竞争 状态 问题 还 有 一 个 正确 办 法 。 本 办 法 不 是 让 信和 号 处 理 函 数 
简单 地 返回 并 期 望 该 返回 能 够 中 断 阻 压 中 的 recvfrom， 而 是 让 信和 号 处 理 
胃 数 使 用 PC 通知 主 控 函 数 dg_c1i 定 时 圳 已 到 时 。 这 与 我 们 早先 给 出 的 
让 信号 处 理 函数 在 定时 器 时 间 到 时 设置 全 局 变量 had_alarm 的 提议 多 少 
有 些 类 似 ， 因 为 该 全 局 变量 被 用 作 IPC 的 一 种 形式 Cg clik AAE 
处 理 函 数 之 间 的 共 孕 内存 区 ) 。 使 用 全 局 变量 办 法 的 问题 在 于 主 控 函 数 
必须 测试 该 变量 ， 如 果 信号 的 递交 和 变量 的 测试 几乎 同时 及 生 ， 苋 争 状 
态 的 时 序 问题 就 会 发 生 。 


我 们 在 图 20-10 中 使 用 的 是 进程 内 部 的 一 个 管道 。 当 定时 器 时 间 到 
IS, fe SAFE ea BCS AA FH NE dg cli BAAS 
以 决定 何 时 终止 for 循 环 。 使 得 本 方法 如 此 完美 的 是 我 们 使 用 select 来 
检测 该 管道 是 否 变 为 可 读 。select 同 时 测试 套 接 字 和 管道 的 可 读 性 。 

















创建 


me 


iH 


1 &inclode- "inp b” 


2 static void vecvfrem alasrmiint!; 
3 otarin int pipafd[2); 


15 


4^ 


16 ; 


beosvdactibcast4 c 


vole 
dc cliiFZLE ‘fv, int sozxfd, const SA ^pswervaddz, socklen_t servlen; 
[ 
int n, maxfdpi; 
const inz on = 1; 
char sénd_ine (MOASLINE!. recv_ine [WAYLINE + 1], 
fd oct rect; 
socklen - len; 
struct sockadd= spreply acdr, 
areply_addr = Mállocise-vien); 
Artscckopt (sackfd, SW, SOCWET, SC FSOMDCAST, Aon, sizeof ian] 
Pipe (pinefa) : 
maxfdpl = maxíscckfd, pipefd‘o]! + 1; 
PD_ZERC (érset) ; 
Signal (SICALRM, xeevfror_alarm) : 
while (Fqasts(sendlins, MAXLINE, tp) !- NULLI f 
femdtotanerdfd, send ine, strlen(sendline;, U, paervadür, aerian); 
a-arm(i); 
few bes Sod 
FPO sET(noc«fd, urner); 
FD SET(pipefd[O0., &rsst]; 
it | in - select(maxtdp:, &rset, MULL, NULL, NULL)) = 0; { 
if (rrna mm FINTR) 
continue + 
else 
err_aya("selset error’); 
! 
it !FD ISSsT/goCk?d, &rset!!| { 
len ^ WIV 
n = Recvfrem(so7cfd, recvline, VAXDINE, €, preply acdr, 
£len); 
veovline In) = b; /* rull terminate */ 
printf'/*from te: ts", 
Sock ntop aoet[preply addr, len), recwliwe); 
] 
if [FD Is327T(pipetC|^], &rseti? { 
keadipipefd[0], sn, 1j; /* timar expired */ 
breaks 
} 
] 
t 
trae ipregly acir}, 


47 static vori 
18 recvfrcm zlam([int cígno) 


49 ， 


Sth 
51 


22 > 


六 


wri-2(pipe-cá[1], "*, 1); 
return; 


/* write one mr ] byte to pipe */ 


beste then c 


图 20-10 ”使 用 从 信和 号 处 理 函 数 到 主 控 函 数 的 管道 作为 IPC 





15 我们 创建 一 个 普通 的 Unix 管 道 ， 返 回 两 个 描述 符 。pipefd[9] 
是 读 入 端 ，pipefd[1] 是 写 出 端 。 


我 们 也 可 以 调用 socketpair 创 建 一 个 全 双 工 管道 。 某 些 系 统 上 普通 
的 Unix 管 道 也 总 是 全 双 工 的 ， 可 以 从 任何 一 端 读 入 ， 也 可 以 写 出 到 任何 
= s 


对 套 接 字 和 管道 读 入 端 进行 select 


23-30 ”针对 套 接 字 sockfd 和 管道 读 入 端 pipefd[0] 调 用 select 测 试 
可 读 条 件 。 


47-52 “ 当 SIGALRM 信 号 被 递交 时 ， 信 号 处 理 函 数 往 管道 中 写 入 一 个 
字 节 ， 使 得 该 管道 的 读 入 端 变 为 可 读 。 本 信号 处 理 函 数 的 返 回 有 可 能 
扬 select 调 用 。 当 select 返 回 EINTR 错 误 时 我 们 忽略 该 错误 ， 因为 我 们 知 
道 管 道 的 读 入 端 将 最 终 变 为 可 读 ， 从 而 终结 for 循 环 。 


从 管道 read 
39-42 “” 当 管道 的 读 入 端 变 为 可 读 时 ， 我 们 调用 read 从 管 道中 读 入 


由 信和 号 处 理 函 数 写 出 的 那个 空 学 节 并 忽略 它 。 然而 管道 变 为 可 读 这 一 点 
告诉 我 们 定时 器 已 到 时 ， 于 是 我 们 break 出 这 个 无 限 的 for 循 环 。 











20.6 ”小 结 


广播 友 送 的 数据 报 由 发 送 主机 茶 个 所 在 子 网 上 的 所 有 主机 接收 。 广 
播 的 务 势 在 于 同一 子 网 上 的 所 有 主机 都 必须 处 理 数据 报 ， 寿 是 UDP 数 据 
报 则 需 沿 协议 栈 向 上 一 直 处 理 到 UDP 层 ， 即 使 不 参与 广播 应 用 的 主机 也 
不 能 幸免 。 要 是 运行 诺 如 音频 、 视 频 等 以 较 高 数据 速率 工作 的 应 用 ， 这 
些 非 必 要 的 处 理会 给 这 些 主机 带 来 过 度 的 处 理 人 负担。 我 们 将 在 下 一 半 看 
到 多 播 可 以 解决 本 问题 ， 因 为 多 播发 送 的 数据 报 只 会 由 对 相应 多 播 应 用 
感 兴趣 的 主机 接收 。 


我 们 把 UDP 时 间 获 取 客 户 程 序 改写 成 回 标 准 daytime 服 务 器 发 送 一 
个 广播 请 求 ， 然 后 显示 在 5 秒 钟 内 收 到 的 所 有 应 答 。 我 们 通过 这 个 例子 
展示 由 SIGALRM 信 号 引起 的 竞争 状态 。 因 为 使 用 alarm 函 数 和 SITGALRM 信 和 号 
是 对 读 操 作 设 置 超时 的 一 个 常用 方法 ， 这 个 微妙 的 错误 在 网 络 应 用 程序 
a E E E 
人 确 办 法 : 

















e 使 用 pselect; 
e 使 用 sigsetjmp 和 siglongjmp; 
。 使 用 从 信和 号 处 理 函 数 到 主 循环 的 IPC〈 典 型 为 管道 ) 。 


习题 


20.1 运行 使 用 dg_clLi 函 数 广播 版 本 〈 图 20-5) 的 UDP 客户 程序 。 
你 接收 到 了 多 少 个 应 答 ? 它们 总 是 以 同样 的 顺序 到 达 吗 ? 你 的 网 络 上 的 
主机 具有 同步 时 钟 吗 ? 


20.2 ”在 图 20-10 中 select 返 回 之 后 插入 奉 干 printf 语 句 ， 以 便 查 
看 select 究 竟 返 回 一 个 错误 还 是 那 两 个 描述 符 之 一 的 可 读 条 件 。 
当 alarm 时 则 到 时 ， 你 的 系统 返回 了 EINTR 错 误 还 是 管道 的 可 读 条 件 ? 
20.3 ”运行 诸如 tcpdump 之 类 工具 查找 局 域 网 上 的 广播 数据 报 ， 所 用 


命令 为 tcpdump ether broadcast。 分 析 一 下 这 些 广 播 数据 报 分 别 属于 哪 
些 协 议 族 。 
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QD 广播 可 以 减少 局 域 网 上 的 分 组 流通 ， 与 无 盘 系 统 之 间 却 存在 一 个 不 合 
需要 的 交互 问题 。 假 设 一 个 NTP 服 务 占 主机 每 阳 64 秒 钟 广播 一 次 当前 时 
间 。 如 果 在 此 期 间 所 有 无 盘 客 户主 机 上 的 NTP 守 护 进 程 被 换 出 主 存 ， 那 
么 当 它 们 每 阳 64 秒 钟 收 到 一 个 NTP 数 据 报时 ， 操 作 系 统 将 立刻 从 也 在 该 
局 域 网 上 的 磁盘 服务 器 主机 把 NTP 守 护 进程 读 回 主 存 。 这 么 一 来 ， 因 无 
盘 客户 主机 周期 性 地 把 NTP 守 护 进程 通过 网 络 换 入 主 存 而 造成 局 域 网 上 
每 隔 64 秒 钟 就 出 现 一 次 分 组 涌流 。 和 幸运 的 是 随 独 磁盘 驱动 器 价格 的 一 路 
走低 ， 无 盘 系 统 几 乎 已 经 绝迹 。 一 一 译 者 注 


图 20-9 存 在 两 个 潜在 的 时 序 问题 。 首 先 考 虑 如 果 信 号 是 在 recvfrom 返 
回 和 把 它 的 返回 值 存 入 n 之 间 被 递 灾 ， 那 么 会 发 生 什 么 现象 。 访 数据 报 
将 被 认为 已 丢失 (尽管 它 已 由 recvfrom 收 取 )〉) ， 不 过 UDP 应 用 程序 应 该 
能 够 处 理 数据 报 的 丢失 。 然 而 如 果 同 样 的 技术 用 于 TCP 应 用 程序 ， 数 据 
就 永远 丢失 了 【因为 TCP 已 确认 了 这 个 数据 并 把 它 递 送 给 了 应 用 进 

程 》》。 图 20-10 使 用 IPC 的 dg_c1li 函 数 也 存在 类 似 的 问题 ， 信 号 可 能 
在 recvfrom 成 功 返 回 和 把 返回 值 存 入 n 之 间 被 递交 。 该 问题 可 通过 

在 select 返 回 之 后 关 挥 alarm 来 解决 。 男 一 种 办 法 是 不 用 alarm， 而 改 
用 select 的 定时 功能 。 第 二 个 问题 是 alarm 调 用 和 首次 sigsetjmp 调 用 之 
间 的 时 间 无 法 保证 小 于 alarm 时 间 〈5 秒 钟 ) 。 解 决 办 法 之 一 是 在 调 








用 sigsetjmp 之 后 再 设置 一 个 标志 ， 并 在 信号 处 理 函 数 中 测试 该 标志 : 
如 果 该 标志 还 没有 设置 ， 那 么 不 调用 siglongjmp， 仅 仅 重 置 alarm 就 行 。 
结论 是 : 为 了 在 这 些 可 能 的 情形 下 保证 健壮 性 ， 应 避免 使 
用 siglongjmp， 而 改 用 pselect 或 IPC 方 法 。 


clus 多 播 


21.1 概述 


如 图 20-1 所 示 ， 单 播 地 址 标识 单个 IP 接 口 ， 广 播 地 址 标识 某 个 子 网 
的 所 有 IP 接 口 ， 多 播 地 址 标识 一 组 IP 接 口 。 单 播 和 广播 是 寻 址 方案 的 两 
个 极端 (要 么 单个 要 么 全 部 ) ， 多 播 则 意 在 两 者 之 间 提 供 一 种 折衷 方 
案 。 多 播 数据 报 只 应 该 由 对 它 感 兴趣 的 接口 接收 ， 也 就 是 说 由 运行 相应 
多 播 会 话 应 用 系统 的 主机 上 的 接口 接收 。 另 外 ， 广 播 一 般 局 限于 局 域 网 
内 使 用 ， 而 多 播 则 既 可 用 于 局 域 网 ， 也 可 路 广域网 使 用 。 事 实 上 ， 基 于 
MBone 〈B.2 节 ) 的 应 用 系统 每 天 都 在 跨 整 个 因特网 多 播 。 


ATCP APIA SC HF & TR UI ASI] VI RERE: ON PET, H 
中 3 个 影响 目的 地 址 为 多 播 地 址 的 UDP 数据 报 的 发 送 ， 另 外 6 个 影响 主机 
对 于 多 播 数 据 报 的 接收 。 























21.2 多 播 地 址 


在 讲解 多 播 地 址 的 时 候 ， 我 们 必须 区 分 IPv4 多 播 地 址 和 IPv6 多 播 地 
址 。 


21.2.1 IPv4 的 DD 类 地 址 


IPv4 的 DD 类 地 址 (从 224.0.0.0 到 239.255.255.255〉 是 IPv4 多 播 地 址 
(图 A-3) 。 DD 类 地 址 的 低 序 28 位 构成 多 播 组 ID (group ID) ， 整 个 32 位 
地 址 则 称 为 组 地 址 (group address) 。 
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图 21-1 展 示 了 从 IPv4 多 播 地 址 到 以 太 网 地 址 的 映射 方法 。IPv4 多 播 
地 址 到 以 太 网 地 址 的 映射 见 RFC 1112 [Deering 1989] ， 到 FDDI 网 络 地 
址 的 映射 见 RFC 1390 [Katz 1993] ， 到 令 牌 环 网 地 址 的 映射 见 RFC 
1469 [Pusateri 1993」。 图 中 还 展示 了 IPv6 多 播 地 址 到 以 太 网 地 址 的 映 
射 ， 以 便 比 较 二 者 映射 成 的 结果 以 太 网 地 址 。 
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图 21-1 IPv4 和 IPv6 多 播 地 址 到 以 太 网 地 址 的 映射 





考察 一 下 IPv4 的 映射 。 以 太 网 地 址 的 高 序 24 位 总 是 o1:6oo:5e。 下 一 
位 总 是 0， 低 序 23 位 复制 自 多 播 组 ID 的 低 序 23 位 。 多 播 组 ID 的 高 序 5 位 在 
映射 过 程 中 被 忽略 。 这 一 点 意 谓 着 32 个 多 播 地 址 映射 成 单个 以 太 网 地 
址 ， 因 此 这 个 映射 关系 不 是 一 对 一 的 。 

以 太 网 地 址 首 字 节 的 低 序 2 位 标明 该 地 址 是 一 个 统一 管理 的 组 地 
址 。 统 一 管理 (universally administered) 属性 位 意味 着 以 太 网 地 址 的 高 
序 24 位 由 IEEE 分 配 ， 组 地 址 属性 位 由 接收 接口 识别 并 进行 特殊 处 理 。 


下 面 是 知 干 个 特殊 的 IPv4 多 播 地 址 。 








224.0.0.1 是 所 有 主机 Call-hosts) 组 。 子 网 上 所 有 具有 多 播 能 力 的 

节点 (主机 、 路 由 器 或 打印 机 等 ) 必须 在 所 有 具有 多 播 能 力 的 接口 
上 加 入 该 组 。 我们 不 久 将 讨论 到 加 入 一 个 多 播 组 意味 着 什么 。) 
224.0.0.2 是 所 有 路 由 器 Call-routers) 组 。 子 网 上 所 有 多 播 路 由 器 必 
须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 。 
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介 于 224.0.0.0 到 224.0.0.255 之 间 的 地 址 (也 可 以 写成 224.0.0.0/24) 
称 为 链 路 局 部 的 Cink local) 多 播 地 址 。 这 些 地 址 是 为 低级 拓扑 发 现 和 
维护 协议 保留 的 。 多 播 路 由 器 从 不 转发 以 这 些 地 址 为 目的 地 址 的 数据 
报 。 我 们 将 在 考察 IPv6 多 播 地 址 之 后 再 讨论 IPv4 多 播 地 址 的 范围 。 


21.2.2 ”IPVv6 多 播 地 址 


IPv6 多 播 地 址 的 高 序 字 节 值 为 ff。 图 21-1 给 出 了 把 16 字 节 IPv6 多 播 
地 址 映射 成 6 字 节 以 太 网 地 址 的 方法 。112 位 组 ID 的 低 序 32 位 复制 到 以 太 
网 地 址 的 低 序 32 位 。 以 太 网 地 址 的 高 序 2 字 节 为 33:33。IPv6 多 播 地 址 到 
以 太 网 地 址 的 映射 见 RFC 2464 [Crawford ] ， 到 FEDDI 网 络 地 址 的 映射 
见 RFC 2467 [Crawford 1998b] ， 到 令 牌 环 网 地 址 的 映射 见 [Thomas 
1997] 。 


以 太 网 地 址 首 字 节 的 低 序 2 位 标明 该 地 址 是 一 个 局 部 管理 的 组 地 
址 。 局 部 管理 Clocaly administered) 属性 位 意味 着 不 能 保证 该 地 址 对 
于 IPv6 的 唯一 性 。 可 能 有 IPv6 以 外 的 其 他 协议 族 共享 同一 网 络 并 使 用 同 
样 的 以 太 网 地 址 高 序 2 字 节 值 。 正 如 我 们 早先 所 提 ， 组 地 址 属性 位 由 接 











收 接口 识别 并 进行 特殊 处 理 。 


IPv6 多 播 地 址 定义 有 两 种 格式 ， 如 图 21-2 所 示 。 当 P 标 志 为 0 时 ，T 
标志 区 分 众所周知 多 播 组 〈 其 值 为 0) 还 是 临时 Ctransient) 多 播 组 (其 
值 为 1) 。P 标 志 值 为 1 表示 多 播 地 址 是 基于 某 个 单 播 前 级 赋予 的 (定义 
见 RFC 3306 [Haberman and Thaler 2002] ) 。 当 P 标 志 为 1 时 ，T 标 志 必 
须 也 为 1 (也 就 是 说 基于 单 播 的 多 播 地 址 总 是 临时 的 ) ，plen 和 prefix 这 
两 个 字段 分 别 设 置 为 前 组 长度 和 单 播 前 绥 的 值 。4 位 标志 字段 的 高 2 位 是 
被 保留 的 。IPv6 多 播 地 址 还 有 一 个 4 位 范围 《scope) 字段， 我 们 不 久 将 
讨论 到 。RFC 3307 [Haberman 2002] 叙述 了 IPv6 组 地 址 的 低 序 32 位 
。 属于 图 21-1 中 112 位 广义 组 ID 一 部 分 ) 独立 于 P 标 志 的 分 配 
JLH! « 

















IPv6 多 32 位 组 JD 
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图 21-2 ”IPv6 多 播 地 址 格式 
下 面 是 若干 特殊 的 IPv6 多 播 地 址 。 


e ffo1::1 和 ffo2: :1 是 所 有 节点 Call-nodes) 组 。 子 网 上 所 有 具有 多 
播 能 力 的 节点 〈 主 机 、 路 由 器 和 打印 机 等 ) 必须 在 所 有 具有 多 播 能 
力 的 接口 上 加 入 该 组 ， 类 似 于 IPv4 的 224.0.0.1 多 播 地 址 。 但 多 播 是 
IPv6 的 一 个 组 成 部 分 ， 这 与 IPv4 是 不 同 的 。 


尽管 对 应 的 IPv4 组 称 为 所 有 主机 组 ， 而 IPv6 组 称 为 所 有 节点 组 ， 它 
们 的 含义 是 一 致 的 。IPv6 重 新 命名 意 在 更 为 清晰 地 指出 本 组 包括 了 子 网 
上 的 主机 、 路 由 器 、 打 印 机 ， 以 及 任何 JP 设备 。 





e ff01::2、ff92: :2 和 ff905: :2 是 所 有 路 由 器 Call-routers) 组 。 子 网 
上 所 有 多 播 路 由 右 必 须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 ， 类 
似 于 IPv4 的 224.0.0.2 多 播 地 址 。 


21.2.3 ”多 播 地 址 的 范围 


IPv6 多 播 地 址 显 式 存在 一 个 4 位 的 范围 Cscope) 字段 ， 用 于 指定 多 
播 数 据 报 能 够 游 走 的 范围 。IPv6 分 组 还 有 一 个 跳 限 Chop limi 字段 ， 
和 下 面 是 若干 个 已 经 分 配给 范围 字段 
^B 。 











1: 接口 局 部 的 Cinterface-local) 。 

2: 链 路 局 部 的 《〈link-local) 。 

4: 管区 局 部 的 Cadmin-local) 。 

5: 网 点 局 部 的 《〈site-local) 。 

8: 组 织 机 构 局 部 的 (organization-local〉。 
14: 全 球 或 全 局 的 (global) 。 


其 余 值 或 者 不 作 分 配 ， 或 者 保留 。 接 口 局 部 数据 报 个 准 由 接口 输 
出 ， 链 路 局 部 数据 报 不 可 由 路 由 器 转发 。 管区 (admin region) 、 网 点 
(site) 和 组 织 机 构 organization) 的 具体 定义 由 该 网 点 或 组 织 机 构 的 
ae ia eae 只 是 范围 字段 值 不 同 的 IPv6 多 播 地 址 代表 不 同 
H 


IPv4 多 播 数 据 报 没有 单独 的 范围 字段 。 因 历史 沿用 关系 ，IPv4 首 部 
中 的 TIL 字 段 兼用 作 多 播 范 围 字段 : 0 意 为 接口 局 部 ，1 意 为 链 路 局 部 ， 
2 一 32 意 为 网 点 局 部 ，33 一 64 意 为 地 区 局 部 Cregion-locaD ，65 一 128 意 
为 大 洲 局 部 Ccontionent-local) ，129 一 255 意 为 无 范围 限制 〈 全 球 ) 。 
TTL 字 上 段 的 这 种 双重 用 途 已 经 导致 一 些 困难 ，RFC 2365 [Meyer 1998 ] 
对 比 有 详细 的 描述 
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尽管 把 IPv4 的 TIL 字 段 用 作 多 播 范围 控制 已 被 接受 并 且 是 受 推荐 的 
做 法 ， 但 是 如 果 可 能 的 话 可 管理 的 函 围 划分 更 为 可 取 。 这 样 做 会 把 IPv4 
介 于 239.0.0.0 到 239.255.255.255 之 间 的 地 址 定义 为 可 管理 地 划分 范围 的 
IPv4 多 播 空间 (administratively scoped IPv4 multicast space) (RFC 
2365 [Meyer 1998] ) ， 它 占据 多 播 地 址 空间 的 高 端 。 该 沙 围 内 的 地 址 
由 组 织 机 构 内 部 分 配 ， 但 是 不 保证 跨 组 织 机 构 边 界 的 唯一 性 。 任 何 组 织 
机 构 必 须 把 它 的 边界 多 播 路 由 器 配置 成 禁止 转发 以 这 些 地 址 为 目的 地 址 
的 多 播 数据 报 。 


可 管理 地 划分 范围 的 IPv4 多 播 地 址 空间 被 进一步 划分 为 本 地 范围 
(local scope) 和 组 织 机 构 局 部 范围 《〈organization-local scope) ， 其 中 
前 者 类 似 于 IPv6 的 网 点 局 部 范围 《但 是 语义 上 不 等 价 ) 。 图 21-3 汇 总 了 
不 同 的 范围 划分 规则 。 











224.0.0.0$41224,0.0.255 
239.255.0.053]239.255.255.255 


239.192.0.013]239.195.255.255 





224.0.1.0$]|238.255.255255 


图 21-3 ”IPv4 和 IPv6 多 播 地 址 范围 


21.2.4 多 播 会 话 


特别 是 在 流 式 多 媒体 应 用 中 ， 一 个 多 播 地 址 〈IPv4 或 ITPv6 地 址 ) 和 
一 个 传输 层 端口 〈 通 常 是 UDP 端口 ) 的 组 合 称 为 一 个 会 话 (session) . 
举例 来 说 ， 一 个 音频 /视频 电话 会 议 可 能 由 两 个 会 话 构成 : 一 个 用 于 音 
频 ， 另 一 个 用 于 视频 。 这 些 会 话 几乎 总 是 使 用 不 同 的 端口 ， 有 时 还 使 用 
不 同 的 多 播 组 ， 以 便 接 收 时 灵活 地 选取 ， 例 如 有 的 客户 可 能 选择 只 接收 
音频 会 话 ， 而 有 的 客户 可 能 选择 同时 接收 音频 和 视频 会 话 。 要 是 不 同 会 
话 使 用 相同 的 组 地 址 ， 这 种 选择 就 不 大 可 能 做 到 。 


21.3. 局域网 上 多 播 和 广播 的 比较 


我 们 现在 返回 到 图 20-3 和 图 20-4 中 展示 的 例子 ， 看 看 在 多 播 情 况 下 
将 发 生 什 么 。 我 们 以 图 21-4 所 示 的 IPv4 情 形 作为 例子 ， 不 过 IPv6 涉 及 的 
步 又 与 之 类 似 。 
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图 21-4 ”UDP 数据 报 多 播 示例 


右 侧 主机 上 的 接收 应 用 进程 启动 ， 并 创建 一 个 UDP 套 接 字 ， 捆 绑 端 
口 123 到 该 套 接 字 上 ， 然 后 加 入 多 播 组 224.0.1.1。 我 们 不 久 将 看 到 这 
种 “加 入 ” (joining ) 操作 通过 调用 setsockopt 完 成 。 上 述 操作 完成 之 
后 ，IPv4 层 内 部 保存 这 些 信 息 ， 并 告知 合适 的 数据 链 路 接收 目的 以 太 网 
tht Yeo1:00:5e:00:01:01f LA APY ht 〈TCPv2 的 12.11 节 ) 。 访 地址 是 
与 接收 应 用 进程 刚 加 入 的 多 播 地 址 对 应 的 以 太 网 地 址 ， 其 中 所 用 映射 方 
法 如 图 21-1 所 示 。 





下 一 个 步骤 是 左 侧 主 机 上 的 发 送 应 用 进程 创建 一 个 UDP 套 接 字 ， 往 
了 P 地 址 224.0.1.1 的 123 端 口 发 送 一 个 数据 报 。 发 送 多 播 数据 报 无 需 任 何 特 
殊 处 理 ; 发 送 应 用 进程 不 必 为 此 加 入 多 播 组 。 发 送 主机 把 该 卫 地 址 转换 
成 相应 的 以 太 网 目的 地 址 ， 再 发 送 承 载 该 数据 报 的 以 太 网 帧 。 注 意 该 帧 
d 《由 接口 检查 ) 和 目的 人 P 地 址 (由 IP 层 检 
ET) 。 


我 们 假设 中 间 主 机 不 具备 IPv4 多 播 能 力 〈 因 为 IPv4 多 播 文 持 是 可 选 
的 ) 。 它 将 完全 忽略 该 帧 ， 因 为 (1) 该 帧 的 目的 以 太 网 地 址 不 匹配 该 
主机 的 接口 地 址 ，〈2) 该 帧 的 目的 以 太 网 地 址 不 是 以 太 网 广播 地 址 ， 
(3) 该 主机 的 接口 未 被 告知 接收 任何 组 地 址 (高 序 字 节 的 低 序 位 被 置 
为 1 的 以 太 网 地 址 ， 如 图 21-1 所 示 ) . 
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该 帧 基于 我 们 所 称 的 不 完备 过 小 (imperfect filtering) 被 右 侧 主机 
的 数据 链 路 接收 ， 其 中 的 过 小 操作 由 相应 接口 使 用 该 帧 的 以 太 网 目的 地 
址 执行 。 我 们 之 所 以 说 这 种 过 滤 不 完备 是 因为 尽管 我 们 告知 该 接口 接收 
以 某 个 特定 以 太 网 组 地 址 为 目的 地 址 的 帧 ， 通 常 它 也 会 接收 以 其 他 以 太 
网 组 地 址 为 目的 地 址 的 帧 。 


当 我 们 告知 一 个 以 太 网 接口 接收 目的 地 址 为 某 个 特定 以 太 网 组 地 址 
的 帧 时 ， 许 多 当前 的 以 太 网 接口 卡 对 这 个 地 址 应 用 某 个 散 列 Chash? K 
数 ， 计 算出 一 个 介 于 0 和 511 之 间 的 值 ， 然 后 把 该 值 在 一 个 512 位 数位 数 
组 中 对 应 的 位 置 1。 当 有 一 个 目的 地 为 某 个 组 地 址 的 帧 在 线 绕 上 经 过 
时 ， 接 口 对 其 目的 地 址 应 用 同样 的 散 列 函数 ， 计 算出 一 个 介 于 0 和 511 之 
间 的 值 。 如 果 该 值 在 同一 个 数组 中 对 应 的 位 为 1， 那 就 接收 这 个 帧 ;人 否 
则 忽略 这 个 帧 。 较 老 的 网 络 接口 卡 所 用 数位 数组 仅 有 64 位 ， 把 它 增加 到 
512 位 可 以 减少 接口 接收 非 关 注 帧 的 可 能 性 。 随 着 时 间 的 推移 和 越 来 越 
多 的 应 用 系统 使 用 多 播 ， 数 位 数组 的 大 小 可 能 进一步 增加 。 当 今 有 些 接 
口 卡 已 经 实现 完备 过 滤 (perfect filtering) 。 另 有 些 接口 卡 根本 没有 多 
播 过 滤 ， 当 告知 它们 接收 某 个 特定 组 地 址 时 ， 它 们 必须 接收 所 有 的 多 播 
帧 《有 时 称 为 “multicast promiscuous” 多 播 混杂 模式 ) 。 有 一 于 流行 的 接 
口 卡 既 具备 容量 为 16 个 组 地 址 的 完备 过 滤 能 力 ， 又 有 一 个 512 位 的 散 列 
结果 数位 数组 作为 补充 。 另 有 一 球 接 口 卡 能 够 为 80 个 组 地 址 的 执行 完备 
过 小 ， 超 出 容量 后 却 不 得 不 进入 多 播 混 杂 模 式 。 即 使 接口 执行 完备 过 
滤 ，IP 层 的 完备 软件 过 滤 仍 然 是 必需 的 ， 因 为 从 IP 多 播 地 址 到 硬件 地 址 
的 映射 不 是 一 对 一 的 。 











右 侧 主机 的 数据 链 路 收取 该 帧 后 ， 把 由 该 帧 藉 载 的 分 组 传递 到 IP 
层 ， 因 为 该 以 太 网 帧 的 类 型 为 JPv4。 既 然 收 到 的 分 组 以 某 个 多 播 卫 地 址 
作为 日 的 地 址 ，IP 层 于 是 比较 该 地 址 和 本 机 的 接收 应 用 进程 已 经 加 入 的 
所 有 多 播 地 址 ， 根 据 比 较 结果 确定 是 接受 还 是 丢弃 该 分 组 .我们 称 这 个 
操作 为 完备 过 滤 (perfect filtering) ， 因 为 它 基 于 IPv4 报 头 中 完整 的 32 
位 DD 类 地 址 执行 。 在 本 例子 中 ，IP 层 接受 该 分 组 并 把 承载 在 其 中 的 UDP 
数据 报 传递 到 UDP 层 ，UDP 层 再 把 承载 在 UDP 数据 报 中 的 应 用 数据 报 传 
递 到 绑 定 了 端口 123 的 套 接 字 。 


图 21-4 中 没有 展示 的 还 有 以 下 三 种 情形 。 


(1) 运行 所 加 入 多 播 地 址 为 225.0.1.1 的 某 个 应 用 进程 的 一 个 主机 。 婚 
然 多 播 地 址 组 ID 的 高 5 位 在 到 以 太 网 地 址 的 映射 中 被 忽略 ， 该 主机 的 接 
口 也 将 接收 目的 以 太 网 地 址 为 0o1:6ogo:5e:60:91:01 的 帧 。 这 种 情况 下 ， 由 
该 帧 承载 的 分 组 将 由 IP 层 中 的 完备 过 滤 丢 弃 。 


(2) ”运行 所 加 入 多 播 地 址 符合 以 下 条 件 的 某 个 应 用 进程 的 一 个 主 
Bl: 由 这 个 多 播 地 址 映射 成 的 以 太 网 地 址 恰好 和 61:060:5e:00:01:01 一 样 
被 该 主机 执行 非 完 备 过 滤 的 接口 散 列 到 同一 个 结果 。 该 接口 也 将 接收 目 
的 以 太 网 地 址 为 1:6g:5e:60:61:61 的 帧 ， 直 到 由 数据 链 路 层 或 耳 层 丢 


弃 








(3) 目的 地 为 相同 多 播 组 (224.0.1.1) 不 同 端口 〈 璧 如 4000) 的 一 个 
数据 报 。 图 21-4 中 右 侧 主机 仍然 接收 该 数据 报 ， 并 由 IP 层 接受 并 传递 给 
UDP 层 ， 不 过 UDP 层 将 丢弃 它 〈 假 设 绑 定 端口 4000 的 套 接 字 不 存在 ) 。 

这 种 情形 表明 让 一 个 进程 接收 某 个 多 播 数 据 报 的 先决 条 件 是 该 进程 
加 入 相应 多 播 组 并 绑 定 相应 端口 。 
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21.4 广域网 上 的 多 播 


正如 上 一 节 所 述 ， 单 个 局 域 网 上 的 多 播 是 简单 的 。 一 个 主机 发 送 一 
个 多 播 分 组 ， 对 它 感 兴趣 的 任何 主机 接收 该 分 组 。 多 播 相 对 于 广播 的 优 
势 在 于 不 会 给 对 多 播 分 组 不 感 兴趣 的 主机 增加 额外 负担 。 


广域网 也 可 以 从 多 播 中 受 葵 。 考 虑 如 图 21-5 所 示 的 广域网 ， 其 中 5 
个 局 域 网 通过 5 个 多 播 路 由 器 互 连 。 


dI Od 


(una) {ans LINER 


| | | | 
LS EX Y. L — LJ LI LJ 
图 21-5 用 5 个 多 播 路 由 器 互 连 的 5 个 局 域 网 


假设 在 其 中 的 5 个 主机 上 启动 了 某 个 程序 (比如 说 监听 茶 个 多 播音 
频 会 话 的 一 个 程序 ) ， 而 且 这 5 个 程序 〈 实 为 进程 ) 加 入 了 一 个 给 定 多 
播 组 〈 我 们 也 说 这 5 个 主机 加 入 了 那个 多 播 组 ) 。 另 外 假设 每 个 多 播 路 
由 器 与 其 邻居 多 播 路 由 器 的 通信 使 用 某 个 多 播 路 由 协议 C multicast 
routing protocol) ， 我 们 就 用 MRP 指称 。 图 21-6 展 示 了 整个 情形 。 
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加 入 组 加 入 组 MAE 加 入 组 


图 21-6 广域网 上 5 个 主机 加 入 一 个 多 播 组 


当 茶 个 主机 上 的 一 个 进程 加 入 一 个 多 播 组 时 ， 该 主机 向 所 有 直接 连 
接 的 多 播 路 由 器 发 送 一 个 IGMP 消 息 ， 告 知 它 们 本 主机 已 加 入 了 那个 多 
播 组 。 多 播 路 由 器 随后 使 用 MRP 交 换 这 些 信息 ， 这 样 每 个 多 播 路 由 器 就 
知道 在 收 到 目的 地 为 所 加 入 多 播 地 址 的 分 组 时 该 如 何 处 理 。 


多 播 路 由 仍然 是 一 个 活跃 的 研究 读 题 ， 单 纯 讨 论 它 融 极 可 能 耗费 一 
本 书 的 容量 。 

接着 假设 左上 方 主机 上 的 一 个 进程 开始 发 送 目的 地 为 那个 给 定 多 播 
地 址 的 分 组 。 比 如 次 这 个 进程 发 送 的 是 那些 多 播 接收 进程 正 等 着 接收 的 
音频 分 组 。 图 21-7 展 示 了 这 些 分 组 。 
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图 21-7 广域网 上 发 送 多 播 分 组 
556—557 
我 们 可 以 跟踪 这 些 多 播 分 组 从 发 送 进程 游 走 到 所 有 接收 进程 所 经 历 
取 


TR 














这 些 分 组 在 左上 方 局 域 网 上 由 发 送 进程 多 播发 送 。 接 收 主机 HI1 接 
收 这 些 分 组 〈 因 为 它 已 经 加 入 给 定 多 播 组 ) ， 多 播 路 由 器 MR1 也 接 
收 这 些 分 组 〈 因 为 每 个 多 播 路 由 器 都 必须 接收 所 有 多 播 分 组 ) 。 
MR1 把 这 些 多 播 分 组 转发 到 MR2， 因 为 MRP 已 经 通告 MR1: MR2 
需要 接收 目的 地 为 给 定 多 播 组 的 分 组 。 

MR2 在 直接 连接 的 局 域 网 上 多 播发 送 这 些 分 组 ， 因 为 该 局 域 网 上 的 
主机 H2 和 H3 属 于 该 多 播 组 。MR2 还 向 MR3 发 送 这 些 分 组 的 一 个 副 
本 


像 MR2 那 样 对 分 组 进行 复制 是 多 播 转 发 所 特有 的 。 单 播 分 组 在 被 路 
由 器 转发 时 从 不 被 复制 。 

MR3 把 这 些 多 播 分 组 发 送 到 MR4， 但 是 不 在 直接 连接 的 局 域 网 上 多 
播 这 些 分 组 ， 因 为 我 们 假设 该 局 域 网 上 没有 主机 加 入 该 多 播 组 。 
MR4 在 直接 连接 的 局 域 刚 上 多 播 友 送 这 些 分 组 ， 因 为 该 局 域 网 上 的 
主机 H4 和 H5 属 于 该 多 播 组 。 它 并 不 同 MR5 发 送 这 些 分 组 的 一 个 副 
本 ， 因 为 直接 连接 MR5 的 局 域 网 上 没有 主机 属于 该 多 播 组 ， 而 MR4 
己 经 根据 与 MR5 交 换 的 多 播 路 由 信息 知道 这 一 点 。 





广域网 上 作为 多 播 葵 代 手 段 的 两 个 不 大 合意 的 方法 是 广播 泛滥 


(broadcast flooding) 以 及 给 每 个 接收 者 发 送 单个 副本 。 使 用 第 一 种 方 
法 时 ， 分 组 由 发 送 进 程 广播 发 送 ， 每 个 路 由 器 在 除 分 组 到 达 接 口外 的 所 
有 其 他 接口 广播 发 送 这 些 分 组 。 显 然 ， 这 个 方法 将 增加 对 这 些 分 组 不 感 
兴趣 但 又 必须 处 理 它们 的 主机 和 路 由 器 的 数目 。 





a e 


使 用 第 二 个 方法 时 ， 发 送 进程 必须 知道 所 有 接收 进程 的 耳 地 址 并 且 
给 每 个 接收 进程 发 送 一 个 副本 。 对 于 图 21-7 所 示 的 5 个 接收 主机 情形 而 
言 ， 这 个 方法 要 求 在 发 送 主机 的 局 域 网 上 出 现 5 个 分 组 ， 从 MRI1 到 MR2 
走 4 个 分 组 ， 从 MR2 到 MR3 再 到 MR4 走 2 个 分 组 。 


21.5 源 特 定 多 播 


广域网 上 的 多 播 因为 多 个 原因 而 难以 部 署 。 最 大 的 问题 是 运行 MRP 
要 求 每 个 多 揪 路 由 器 接收 来 自 所 有 本 地 接收 主机 的 多 播 组 加 入 及 其 他 请 
求 ， 并 在 所 有 多 播 路 由 器 之 间 交 换 这 些 信息 ; 多 播 路 由 器 的 转发 功能 要 
求 把 来 目 网 络 中 任何 发 送 主机 的 数据 复制 并 发 送 到 网 络 中 任何 接收 主 
机 。 另 一 个 大 问题 是 多 播 地 址 的 分 配 : IPv4 没 有 足够 数量 的 多 播 地 址 可 
以 静态 地 分 配给 想 用 的 任何 多 播 应 用 系统 使 用 。 要 在 广 域 范围 发 送 多 播 
分 组 而 又 不 与 其 他 多 播发 送 进程 冲突 ， 多 播 应 用 系统 就 得 使 用 唯一 的 地 
址 ， 然 而 全 球 性 的 多 播 地 址 分 配 机 制 尚未 出 现 。 


558 





源 特定 多 播 (source-specific multicast, SSM) [Holbrook and 
Cheriton 1999 | 给 出 了 这 些 问题 的 一 个 务实 的 解决 办 法 。SSM 把 应 用 系 
统 的 源 地 址 结合 到 组 地 址 上 ， 从 而 在 有 限 程度 上 如 下 地 解决 了 这 些 问 


jel: 


e 接收 进程 向 多 播 路 由 器 提供 发 送 进程 的 源 地 址 作为 多 播 组 加 入 操作 
的 一 部 分 。 这 么 做 可 以 降低 多 播 路 由 器 就 每 个 分 组 的 转发 聚 散 度 ， 
因为 每 个 接收 进程 都 必须 知道 源 地 址 。 这 么 做 还 保留 了 多 播 地 址 的 
包容 性 ， 因 为 发 送 进程 无 需 知道 任何 接收 进程 的 地 址 。 

把 多 播 组 的 标识 从 单纯 多 播 组 地 址 细 化 为 单 播 源 地 址 和 多 播 目 的 地 
址 之 组 合 (SSM 称 之 为 通道 ) 。 这 一 点 意味 着 发 送 进程 可 以 挑选 任 
何 多 播 地 址 ， 因 为 现在 源 地 址 和 目的 地 址 的 组 合 是 必须 唯一 的 ， 而 
源 地 址 本 身 往往 已 经 使 得 该 组 合 唯 一 了 。SSM 会 话 由 源 地 址 、 目 的 
地 址 和 端口 三 者 的 组 合 标识 。 


SSM 还 提供 一 定 的 反 完 听 Canti-spoofing) 能 力 ， 也 就 是 说 ， 让 源 2 
在 源 1 的 通道 上 友 送 较为 困难 ， 因 为 源 1 的 通道 包含 了 源 1 的 源 地 址 。 当 
然 鳃 听 仍 然 是 可 能 的 ， 不 过 要 困难 得 多 。 








21.6 多 播 套 接 字 选项 


传统 意义 的 多 播 API 支 持 只 需要 5 个 套 接 字 选项 。SSM 所 需 的 源 过 滤 
(source filtering) 额外 要 求 多 播 API 文 持 新 增 4 个 套 接 字 选 项 图 21-8 给 
出 了 与 组 成 员 无 关 的 3 个 套 接 字 选 项 的 IPv4 和 IPv6 版 本 以 及 它们 
在 getsockopt 或 setsockopt 调 用 中 期 望 第 四 个 参数 指 癌 的 数据 类 型 。 图 
21-9 给 出 了 与 组 成 员 相 关 的 6 个 套 接 字 选项 的 [PvV4、IPV6 和 与 IP 版 本 无 关 
的 API。 所 有 9 个 选项 对 于 setsockopt 都 是 合法 的 ， 但 是 加 入 和 离开 多 播 
组 或 源 的 6 个 选项 却 不 允许 用 在 getsockopt 中 。 


E CNN: 
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图 21-8 组 成 员 无 关 多 播 套 接 字 选项 


IP ADD MEMBSRSH-P struct ip mreq 加 入 一 个 事 插 组 
IP DROP MENBERSHIP ctruct ip mreq BUNT BIEL 
IP BLOCK SOURCE struct ip mreq scurce i£—^ cn? EHDE B 7S dg 










IP CNBLCCK SOURCE struct ip meq scurce THE — 7r 46 SE 
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IP DROP SOURCE MEMBESSHI? struct ip m-eq scurce mr 
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图 21-9 组 成 员 相 关 多 播 套 接 字 选 项 
IPv4 的 TTL 和 回馈 选项 取 u_char 类 型 的 参数 ， 而 IPv6 的 跳 限 和 回馈 


选项 分 别 取 int 和 u_int 这 两 个 类 型 的 参数 。 图 7-1 中 大 多 数 其 他 套 接 字 先 
项 都 取 整 数 作 为 参数 ， 因 此 使 用 IPv4 多 播 选 项 的 一 个 常见 编程 错误 就 是 
作为 int 参 数 指定 TTL 或 回馈 调用 setsockopt (这 是 不 允许 的 ， 见 TCPV2 
第 354 一 355 页 ) 。IPv6 所 做 的 改动 使 得 它们 与 其 他 选项 更 为 一 致 。 


我 们 接着 详细 讲解 这 9 个 套 接 字 选 项 。 注 意 它们 在 IPv4 和 IPv6 中 有 
相同 的 概念 ， 差 别 只 是 名 字 和 参数 类 型 。 








1. IP ADD MEMBERSHIP. IPV6 JOIN GROUP 和 MCAST_JOIN_GROUP 


在 一 个 指定 的 本 地 接口 上 加 入 一 个 不 限 源 的 多 播 组 。 对 于 IPv4 版 
本 ， 本 地 接口 使 用 人 个 单 播 地 址 指定 ;对 于 IPv6 和 与 协议 无 天 的 API， 
本 地 接口 使 用 茶 个 接口 索引 指定 。 以 下 3 个 结构 在 加 入 或 离开 不 限 源 的 
多 播 组 时 使 用 。 


struct ip mreq { 





struct in addr imr multiaddr; /* IPv4 class D multicast addr */ 
struct in addr imr interface; /* IPv4 addr of local interface */ 
H 
struct ipv6 mreq { 
struct in6 addr ipvemr multiaddr; /* IPv6 multicast addr */ 
unsigned int ipvemr interface; /* interface index, or 0 */ 
}; 
struct group_req { 
unsigned int gr_interface; /* interface index, or 0 */ 
struct sockaddr_storage gr_group; /* IPv4 or IPv6 multicast addr */ 
H 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 CINADDR ANYO 或 ITPv6 值 为 0 的 
索引 ， 那 就 由 内 核 选择 一 个 本 地 接口 。 
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一 个 主机 在 某 个 给 定 接口 上 属于 一 个 给 定 多 播 组 的 前 提 是 该 主机 上 
当前 有 一 个 或 多 个 进程 在 那个 接口 上 属于 该 组 。 


在 一 个 给 定 套 接 字 上 可 以 多 次 加 入 多 播 组 ， 不 过 每 次 加 入 的 必须 是 
不 同 的 多 播 地 址 ， 或 者 是 在 不 同 接口 上 的 同一 个 多 播 地 址 。 多 次 加 入 可 
用 于 多 宿主 机 ， 例 如 创建 一 个 套 接 字 后 对 于 一 个 给 定 多 播 地 址 在 每 个 接 
口上 执行 一 次 加 入 。 





回顾 图 21-3， 我 们 知道 IPv6 多 播 地 址 显 式 存在 一 个 范围 字段 。 我 们 
还 指出 ， 仅 仅 范 围 有 差异 的 IPv6 多 播 地 址 代表 不 同 的 多 播 组 。 因 此 如 果 
某 个 NTP 实 现 想 要 不 论 范围 接收 所 有 NTP 分 组 ， 它 就 必须 加 
入 ffo1::101 (接口 局 部 ) 、ff62::101〔 链 路 局 部 ) 、ff65::101( 网 点 
局 部 ) 、ffe8::101( 组 织 机 构 局 部 ) 和 ffee::101 (CEFER) 。 所 有 这 些 
加 入 都 可 以 在 单个 套 接 字 上 执行 ， 而 且 可 以 通过 设置 TIPVv6_PKTINF0 套 接 
字 选 项 〈22.8 节 ) 让 recvmsg 返 回 每 个 数据 报 的 目的 地 址 。 


IP 协 议 无 关 的 套 接 字 选 项 (MCAST_JOIN_GROUP) 与 IPv6 版 本 几乎 相 
同 ， 差 别 只 是 改 用 一 个 sockaddr_storage 结 构 代 蔡 in6_addr 结 构 传递 多 
播 组 地 址 。 sockaddr_storage 应 足以 存放 系统 支持 的 任何 类 型 的 地 址 。 


大 多 数 实现 对 于 每 个 套 接 字 上 允许 执行 加 入 的 次 数 有 一 个 限制 。 
IPv4 的 这 个 限制 通常 由 常 值 ITP_MAX_MEMBERSHIPS 指 定 ， 对 于 源 自 Berkeley 
的 实现 其 值 往往 是 20。 


当 不 指定 在 其 上 执行 加 入 的 接口 时 ， 源 自 Berkeley 的 内 核 在 普通 的 
IP 路 由 表 中 碍 找 给 定 多 播 地 址 并 使 用 找 出 的 接口 〈TCPv2 第 357 页 ) 。 
为 了 处 理 这 种 情形 ， 有 些 系统 在 初始 化 阶段 为 所 有 多 播 地 址 安装 一 个 路 
径 〈 对 于 IPv4 就 是 目的 地 址 为 224.0.0.0/8 的 路 径 ) . Q 


IPV6 和 协议 无 关 版 本 改 用 接口 索引 指定 接口 ， 以 取代 IPv4 版 本 使 用 
本 地 单 播 地 址 指定 接口 的 做 法 ， 意 图 在 于 允许 在 未 指定 网 络 地 址 的 
(unnumbered) 接口 或 隧道 端点 (tunnel endpoint) 上 执行 加 入 。 


原始 的 IPv6 多 播 API 定 义 使 用 了 IPV6_ADD_MEMBERSHIP 人 而 不 
是 IPV6_JOIN_GROUP。 稍 后 讲解 的 mcast_join 函 数 隐藏 了 这 两 个 版 本 的 差 


FF o 











2. IP DROP MEMBERSHIP. IPV6_LEAVE_GROUP#l/MCAST_LEAVE_GROUP 


离开 指定 的 本 地 接口 上 不 限 源 的 多 播 组 。 我 们 刚才 给 出 的 加 入 不 限 
源 多 播 组 所 用 的 结构 同样 适用 于 本 套 接 字 选 项 的 各 种 版 本 。 如 果 未 指定 
本 地 接口 〈 也 就 是 说 对 于 IPv4 其 值 为 INADDR_ANY， 对 于 IPv6 为 0 值 接口 索 
引 ) ， 那 么 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 


如 末 一 个 进程 加 入 茶 个 多 播 组 后 从 不 显 式 离开 该 组 ， 那 么 当 相 应 套 
接 字 关闭 时 《 因 显 式 地 关闭 ， 或 因 进 程 终止 ) ， 该 成 员 关 系 也 目 动 地 抹 


除 。 单 个 主机 上 可 能 有 多 个 套 接 字 各 目 加 入 相同 的 多 播 组 ， 这 种 情况 
下 ， 单 个 套 接 字 上 成 员 关 系 的 抹 除 不 影响 该 主机 继续 作为 该 多 播 组 的 成 
员 ， 直 到 最 后 一 个 套 接 字 也 离开 该 多 播 组 。 


原始 的 IPv6 多 播 API 定 义 使 用 的 是 IPV6_DROP_MEMBERSHIP 而 不 
XEIPV6 LEAVE 


GROUP。 稍 后 讲解 的 mcast_leave 函 数 隐藏 了 这 两 个 版 本 的 差异 。 
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3. ITP_BLOCK_SOURCE 和 MCAST_BLOCK_SOURCE 


对 于 一 个 所 指定 本 地 接口 上 已 存在 的 一 个 不 限 源 的 多 播 组 ， 在 本 套 
接 字 上 阻 弘 接收 来 目 茶 个 源 的 多 播 分 组 。 如 果 加 入 同一 个 多 播 组 的 所 有 
套 接 字 都 阻 蛙 了 相同 的 源 ， 那 么 主机 系统 可 以 通知 多 播 路 由 器 这 种 分 组 
流通 不 再 需要 ， 并 可 能 由 此 影响 网 络 中 的 多 播 路 由 。 该 套 接 字 选 项 可 用 
于 忽略 壁 如 说 来 自 无 赖 发 送 进程 的 分 组 流通 。 对 于 IPv4 版 本 ， 本 地 接口 
由 某 个 单 播 地 址 指定 ， 对 于 与 IP 协 议 无 关 的 API， 本 地 接口 由 某 个 接口 
索引 指定 。 以 下 2 个 结构 在 阻 压 或 开通 茶 个 源 时 使 用 。 


struct ip mreq source ( 








struct in addr imr multiaddr; /* IPv4 class D multicast addr */ 

struct in addr imr sourceaddr; /* IPv4 source addr */ 

struct in_addr imr_interface; /* IPv4 addr of local interface */ 
H 
struct group source reg { 

unsigned int gsr interface; /* interface index, or 0 */ 

struct sockaddr storage gsr group; /* IPv4 or IPv6 multicast addr 
*/ 

struct sockaddr_storage gsr_source; /* IPv4 or IPv6 source addr */ 
HN 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 CINADDR ANYO 或 与 协议 无 关 
的 API 的 0 值 索 引 ， 那 就 由 内 核 选择 与 首 个 匹配 的 多 播 组 成 员 关 系 对 应 的 
本 地 接口 。 

源 阻 塞 请 求 修 改 已 存在 的 组 成 员 关 系 ， 因 此 必须 已 经 使 
用 IP_ADD_MEMBERSHIP、IPV6_JOIN_GROUP 或 MCAST_JOIN_GROUP 在 对 应 的 接 


口上 加 入 对 应 的 多 播 组 。 


4. IP_UNBLOCK_SOURCE 和 MCAST_UNBLOCK_SOURCE 


开通 一 个 先前 被 阻塞 的 源 。 我 们 刚才 给 出 的 用 于 阻 赛 菜 个 源 的 络 构 
同样 适用 于 本 套 接 字 选项 的 各 种 版 本 。 


如 果 未 指定 本 地 接口 〈 也 就 是 说 对 于 IPv4 其 值 为 INADDR_ANY， 对 于 
与 协议 无 关 的 API 为 0 值 索 引 ) ， 那 么 开通 首 个 匹配 的 被 阻塞 源 。 


5. IP_ADD_SOURCE_MEMBERSHIP 和 MCAST_JOIN_SOURCE_GROUP 


在 一 个 指定 的 本 地 接口 上 加 入 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 给 
出 的 用 于 阻塞 或 开通 某 个 源 的 结构 同样 适用 于 本 套 接 字 选 项 的 各 种 版 
本 。 在 这 个 本 地 接口 上 绝 不 能 作为 不 限 源 的 多 播 组 已 经 或 将 要 使 
HirP ADD MEMBERSHIP. IPV6 JOIN GROUPPÉMCAST JOIN GROUPJILAX^ 


TRAH 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 CINADDR any) 或 与 协议 无 关 
的 API 的 0 值 索引 ， 那 就 由 内 核 选择 一 个 本 地 接口 。 
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6. IP DROP SOURCE MEMBERSHIPZIIMCAST LEAVE SOURCE GROUP 


在 一 个 指定 的 本 地 接口 上 离开 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 给 
出 的 用 于 阻塞 或 开通 某 个 源 的 结构 同样 适用 于 本 套 接 字 选项 的 各 种 版 
本 。 如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 INADDR_ANY， 对 于 
a E URS, 
E 2H X D OS A 


如 果 一 个 进程 加 入 菏 个 特定 于 源 的 多 播 组 后 从 不 显 式 离开 该 组 ， 那 
么 当 相 应 的 套 接 字 关闭 时 《或 因 显 式 地 关闭 ， 或 因 进程 终止 ) ， 访 成员 
关系 也 目 动 地 抹 除 。 单 个 主机 上 可 能 有 多 个 套 接 字 各 目 加 入 相同 的 源 特 
定 多 播 组 ， 这 种 情况 下 ， 单 个 套 接 字 上 成 员 关 系 的 抹 除 不 影响 该 主机 继 
续 作 为 该 多 播 组 的 成 员 ， 直 到 最 后 一 个 套 接 字 也 离开 该 多 播 组 。 


7. ITP_MULTICAST_IF 和 IPV6_MULTICAST_IF 


指定 通过 本 套 接 字 发 送 的 多 播 数据 报 的 外 出 接口 。 对 于 IPv4 版 本 ， 
该 接口 由 某 个 in_addr 结 构 指 定 ; 对 于 IPv6， 该 接口 由 某 个 接口 索引 指 
定 。 如 果 其 值 对 于 IPv4 为 INADDR_ANY， 对 于 IPv6 为 0 值 接口 索引 ， 那 么 先 
































前 通过 本 套 接 字 选 项 指派 的 任何 接口 将 被 抹 除 ， 系 统 改 为 每 次 发 送 数据 
报 都 选择 外 出 接口 。 


注意 仔细 区 分 当 进 程 加 入 多 播 组 时 指定 的 《或 由 内 核 选 定 的 ) 本 地 
接口 “到 达 多 播 数 据 报 通过 该 接口 接收 ) 以 及 当 进 程 送 出 多 播 数据 报时 
指定 的 《或 由 内 核 选 定 的 ) 本 地 接口 。 


源 自 Berkeley 的 内 核 通 过 在 普通 的 IP 路 由 表 中 查找 通 往 目的 多 播 地 
址 的 路 径 来 选择 多 播 数据 报 的 默认 外 出 接口 。 同 样 的 技术 也 用 于 选择 接 
收 接口 ， 前 提 是 进程 在 加 入 多 播 组 时 未 指定 这 个 接口 。 这 里 假定 如 果 存 
在 通 往 某 个 给 定 多 播 地 址 的 一 个 路 径 〈 或 许 是 路 由 表 中 的 默认 路 径 ) ， 
那么 该 路 径 对 应 的 接口 应 该 既 用 于 和 输出， 也 用 于 输入 。 








8. IP_MULTICAST_TTL 和 ITIPV6_MULTICAST_HOPS 


给 外 出 的 多 播 数 据 报 设置 TIPv4 的 TTL 或 ITPv6 的 跳 限 。 如 果 不 指定 ， 
这 两 个 版 本 就 都 默认 为 1， 从 而 把 多 播 数据 报 限 制 在 本 地 子 网 。 


9. IP_MULTICAST_LOOP 和 IPV6_MULTICAST_LOOP 


开局 或 禁止 多 播 数 据 报 的 本 地 上 自 环 〈 即 回馈 ) 。 默 认 情 况 下 回馈 开 
启 : 如 果 一 个 主机 在 某 个 外 出 接口 上 属于 某 个 多 播 组， 那么 该 主机 上 由 
有 个 进程 发 送 的 目的 地 为 该 多 播 组 的 每 个 数据 报 都 有 一 个 副本 回 饥 ， 被 
该 主机 作为 一 个 收取 的 数据 报 处 理 。 


类 似 广播 的 是 ， 一 个 主机 上 发 送 的 任何 广播 数据 报 也 被 该 主机 作为 
收取 的 数据 报 处 理 〈 图 20-4) 。〔 对 于 广播 而 言 ， 这 种 回馈 无 法 禁 
lE. ) 这 一 点 意味 着 如 果 一 个 进程 同时 属于 所 发 送 数 据 报 的 目的 多 播 
组 ， 它 就 会 收 到 自己 发 送 的 任何 数据 报 。 
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在 这 里 讨论 的 回馈 是 在 人 P 层 或 更 高 层 进行 的 内 部 回馈 。 要 是 接口 听 
到 了 自己 发 送 的 比特 位 流 ，RFC 1112 [Deering 1989] 要 求 驱动 程序 丢 
弃 这 些 副 本 。 该 RFC 同 时 声明 本 回馈 套 接 字 选项 默认 情况 下 开启 的 原因 
在 于 作为 “一 个 针对 某 些 上 层 协 议 的 性 能 优化 手段 ， 这 些 协议 (如 路 由 
ee ee ee 
T 























上 述 9 个 套 接 字 选 项 中 〈 包 括 它 们 的 各 种 版 本 ) ， 前 6 个 影响 多 播 数 
据 报 的 接收 ， 而 后 3 个 影响 多 播 数 据 报 的 发 送 〈 外 出 接口 、TIL 或 跳 限 
及 回馈 ) 。 我 们 以 前 提 到 过 多 播 数 据 报 的 发 送 无 需 任何 特殊 处 理 。 如 宋 
EREE TEBE IR A TB ES ROSS RBI, HABE 
MEE TIL 或 跳 限 将 为 1， 并 有 一 个 副本 上 自 环 回 





为 了 接收 目的 地 址 为 某 个 组 地 址 且 目 的 端口 为 某 个 端口 的 多 播 数 据 
报 ， 进 程 必须 加 入 该 多 播 组， 并 捆绑 该 端口 到 茶 个 UDP 套 接 字 。 这 两 个 
操作 是 截然 不 同 的 ， 不 过 都 是 必需 的 。 多 播 组 加 入 操作 告知 所 在 主机 的 
IP 层 和 数据 链 路 层 接收 发 往 该 组 的 多 播 数据 报 。 端 口 捆绑 操作 则 是 应 用 
进程 向 UDP 指 示 它 想 接 收发 往 该 端口 之 数据 报 的 手段 。 有 些 应 用 进程 除 
端口 外 还 把 多 播 地 址 也 捆绑 到 茶 个 套 接 字 ， 从 而 防止 所 在 主机 卫 层 把 为 
ee 

is 


为 了 接收 目的 地 址 为 某 个 多 播 组 目的 端口 为 某 个 端口 的 数据 报 ， 历 
史上 源 自 Berkeley 的 实现 曾经 只 要 求 某 个 套 接 字 加 入 该 多 播 组 ， 而 这 个 
套 接 字 不 必 是 捆绑 该 套 接 字 从 而 接收 这 些 数据 报 的 那个 套 接 字 。 人 然而 这 
些 实现 存在 把 多 播 数据 报 递 送 到 无 多 播 意识 之 应 用 进程 的 潜在 可 能 性 。 
新 的 多 播 内 核 要 求 进程 为 用 于 接收 多 播 数 据 报 的 套 接 字 捆 绑 相应 端口 并 
任意 设置 一 个 多 播 套 接 字 选项 ， 其 中 后 者 作为 该 应 用 进程 具备 多 播 意识 
的 指示 。 最 通常 设置 的 多 播 套 接 字 选项 是 多 播 组 的 加 入 。Solaris 的 做 法 
有 所 不 同 ， 它 只 把 收 到 的 多 播 数 据 报 递送 到 既 加 入 了 多 播 组 又 绑 定 了 端 
口 的 套 接 字 。 为 便于 移植 起 见 ， 所 有 多 播 应 用 程序 都 应 该 加 入 组 并 捆绑 


žm O o 


较 新 的 多 播 API 支 持 就 如 Solaris 那 样 强调 加 入 多 播 组 是 接收 多 播 数 
据 报 的 必要 条 件 : IP 层 只 把 多 播 数据 报 递 送 给 已 经 加 入 相应 的 多 播 组 和 / 
或 单 播 源 的 套 接 字 。 这 个 做 法 是 随 着 IGMPv3 (RFC 3376 [Cain et al. 
2002] ) 而 引入 的 ， 意 在 允许 源 过 滤 和 源 特 定 多 播 。 它 强调 加 入 组 这 个 
需求 ， 而 放松 捆绑 组 地 址 的 需求 〈 这 个 需求 本 来 就 是 非 必要 的 ) 。 然 而 
为 便于 移植 起 见 ， 多 播 应 用 程序 应 该 加 入 组 并 捆绑 端口 和 组 地 址 。 


有 些 较 老 的 具备 多 播 能 力 的 主机 不 允许 把 多 播 地 址 捆绑 到 套 接 字 。 
为 了 便于 移植 ， 应 用 程序 可 以 忽略 bind 多 播 地 址 返回 的 错误 ， 并 


用 INADDR_ANY 或 in6addr_any 再 次 尝试 bind。 
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21.7 ”mcast_join 和 相关 函数 


尽管 多 播 套 接 字 选项 的 ITPv4 和 IPv6 版 本 彼此 相似 ， 但 是 仍 有 过 多 的 
差别 造成 使 用 多 播 的 协议 无 关 代 码 因 插入 大 量 的 好 fdef 伪 代码 而 变 得 凌 
乱 不 堪 。 一 个 较 好 的 解决 办 法 是 使 用 以 下 12 个 函数 隐藏 这 些 区 别 。 


#include "unp.h" 








int mcast join(int sockfd, const struct sockaddr *grp, socklen t grplen, 
const char *ifname, u int ifindex); 


int mcast leave(int sockfd, const struct sockaddr *grp, socklen t grplen); 


int mcast block source(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


int mcast unblock source(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


int mcast join source group(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen, 
const char *ifname, u int ifindex); 


int mcast leave source group(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 





int mcast set if(int sockfd, const char *ifname, u int ifindex); 
int mcast set loop(int sockfd, int flag); 
int mcast set ttl(int sockfd, int ttl); 


以 上 均 返 回 : 若 成 功 则 为 9， 若 出 错 则 








为 -1 


int mcast get if(int sockfd); 
































返回 : 若 成 功 则 为 非 负 接口 索引 ， 若 出 错 则 
为 -1 
int mcast get loop(int sockfd); 

返回 : 若 成 功 则 为 当前 回馈 标志 ， 若 出 错 则 




















为 -1 
int mcast get ttl(int sockfd); 


返回 : 若 成 功 则 为 当前 TTL 或 跳 限 ， 若 出 错 











则 为 -1 
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mcast_join 加 入 一 个 不 限 源 的 多 播 组 ， 该 组 的 IP 地 址 存放 在 由 grp 指 
同 的 长 上 度 为 grplen 的 套 接 字 地 址 结构 中 。 我 们 可 以 指定 在 其 上 加 入 该 组 
的 接口 ， 或 者 使 用 接口 名 字 (一 个 非 空 的 frame〉， 或 者 使 用 非 零 的 接 
L12& 5] Cifindex) ， 知 两 者 都 没有 指定 则 由 内 核 选择 这 个 接口 。 如 前 所 
述 对 于 IPv6， 接 口 通过 其 索引 指定 给 套 接 字 选项 ， 如 果 给 定 的 是 接口 名 
字 ， 那 就 调用 if_nametoindex 获 取 其 索引 。 对 于 IPv4， 接 口 通 过 其 单 播 
IP 地 址 指定 给 套 接 字 选 项 :如果 给 定 的 是 接口 名 字 ， 那 就 以 SI0CGIFADDR 
请 求 调用 ioct1 函 数 获取 其 单 播 IP 地 址 ， 如 果 给 定 的 是 接口 索引 ， 那 就 
先 调用 if_indextoname 函 数 获取 其 名 字 ， 再 如 刚才 所 述 处 理 该 名 字 。 


让 用 户 指定 接口 通常 采用 接口 的 名 字 〈 辟 如 1e6 或 ether6) ， 而 不 
用 接口 的 人 地 址 或 索引 。 举 例 来 说 ，tcpdump 是 允许 用 户 指 定 接 口 的 少 
数 几 个 程序 之 一 ， 它 的 -i 选项 以 一 个 接口 名 字 作 为 参数 。 


mcast_leave 离 开 一 个 不 限 源 的 多 播 组 ， 访 组 的 耳 地 址 存放 在 由 grp 
指 同 的 长 度 为 grplen 的 套 接 字 地 址 结构 中 。mcast_leave 不 能 指定 早先 在 
其 上 加 入 该 组 的 接口 ， 它 总 是 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 这 么 做 
简化 了 库 函 数 接口 ， 需 要 针对 接口 控制 组 成 员 关 系 的 程序 却 不 得 不 直接 
fii Hl set sockopt AIZ. 


mcast_block_sou rcekH 3& Bell E HRS USE BIA cE m TR 2H. 的 数据 报 ， 
其 中 单 播 源 和 多 播 组 分 别 由 src 和 grp 指 问 的 长 度 分 别 为 srclen 和 grplen 的 
两 个 套 接 字 地 址 结构 给 出 。 本 套 接 字 上 必须 已 为 给 定 多 播 组 调用 过 


mcast join. 


mcast unblock sou rce 开 通 从 给 定 单 播 源 到 给 定 多 播 组 的 数据 报 接 
收 。 所 指定 的 参数 必须 与 早先 某 个 mcast_block_source 调 用 一 致 。 


mcast_join_source_group 加 入 一 个 特定 于 源 的 多 播 组 ， 该 源 和 该 组 
分 别 由 src 和 grp 指 向 的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 字 地 址 结构 
给 出 。 在 其 上 加 入 该 多 播 组 的 接口 可 以 使 用 接口 名 字 一 个 非 空 的 
ifname) 或 非 零 的 接口 索引 Cifindex) 指定 ， 阁 两 者 都 未 指定 则 由 内 核 
选择 这 个 接口 。 


mcast_leave_source_group 离 开 一 个 特定 于 源 的 多 播 组 ， 该 源 和 该 
组 分 别 由 src 和 grp 指 同 的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 字 地 址 结 























构 给 出 。 与 nrcast_leave 一 样 ， 本 函数 也 不 能 指定 早先 在 其 上 加 入 该 组 
的 接口 ， 它 总 是 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 














_set_ 索引 。 如 果 ifname 非 
空 ， 那 么 它 指定 接口 的 名 字 ; 否则 如 果 ifindex 大 于 0， 那 么 它 指定 接口 
索引 。 对 于 IPv6， 接 口 从 名 字 到 索引 的 映射 调用 if_nametoindex 完 

成 。 对 于 IPv4， 接 口 从 名 字 或 索引 到 单 播 IP 地 址 的 映射 使 用 

与 mcast_join 一 样 的 方法 完成 。 


mcast_set_1oop 把 回馈 套 接 字 选项 设置 为 1 或 0，mcast_set_tt1 则 设 
置 IPv4 的 TTL 或 ITPv6 的 跳 限 。3 个 mcast_get_XXX 函 数 返 回 相 应 的 值 。 
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21.7.1 例子 : mcast_join 函 数 


图 21-10 给 出 了 mcast_join 函 数 的 前 三 分 之 一 部 分 。 这 部 分 处 理 IP 无 
关 套 接 字 选项 版 本 。 


ibéatcast joine 





1 £incluce "unp. h” 
2 fincluce «net/if.h» 


3 int 

4 meast join(int ecckfd, comet SA *grp, Eocklea3 t grplen, 
ccnast char *iframe, J int ifindsx) 

6 61 

7 #itdet MIAST JOIN GROUP 


6 struct group_req req: 

& i? (ifincex > 32) { 

Lọ re3.ar interface = ifindex; 

11 } else if (:fmame !- NULL) 1 

12 if | ireq.gr interface = if nametoindexi(ifname)) == 0) { 
le errno = ENAIO; /* i/f nans not found >/ 

14 rezum(-1); 

15 ) 

lé } else 

17 reéj.gr interfeces 

1& i? (grien > sizeofiveq.gr zreup)) [ 

19 orrnc = ZINVAL: 

20 return -1; 

21 ) 

22 memcpy [áreg.gr_group, grp, zrc.en); 

23 return [setsocxopt (sockfd, fam-ly to levellgrp-»sa family), 
24 MCAST JOIN GROUP, &req, sizeof [req])); 
25 #elee 


libfmcast joine 


图 21-10 ”加 入 一 个 多 播 组 : 卫 无 关 套 接 字 


处 理 索 引 


9-17 ”如 宋 调 用 者 给 定 接口 索引 ， 那 就 直接 使 用 它 。 人 否则 如 宋 调 用 
者 给 定 接口 名 字 ， 那 就 调用 if_nametoindex 把 名 字 转 换 成 索引 。 再 不 然 
就 把 接口 索引 置 为 0， 告 知 内 核 去 选择 接口 。 


复制 地 址 并 调用 setsockopt 


18-22 ”把 调用 者 给 定 的 套 接 字 地 址 结构 直接 复制 到 一 个 group_req 
结构 中 。 该 结构 的 gr_group 成 员 是 一 | sockaddr_storage 结 构 ， 足以 存 
放 系 统 文 持 的 任何 地 址 类 型 。 然 而 为 了 防备 因 代 码 编写 不 慎 而 引起 缓冲 
区 湾 出 ， 我 们 仍然 检查 调用 者 给 定 的 套 接 字 地 址 结构 的 大 小 ， 奋 过 六 则 


返回 EINVAL 错 误 。 


23-24 ”setsockopt 执 行 组 如 入 操作 。setsockopt 的 level 参 数 由 我 们 
的 family_to_ level A AUR HE H He HE HI HE HEIE TH ZE o 一 些 系 统 支 持 level 
参数 和 套 接 字 地 址 族 的 不 匹配 ， 例 如 ， 为 McAST_JOIN_GROUP 其 至 
是 AF_INET6 套 接 字 使 用 IPPRoTO_IP， 但 也 并 非 全 部 支持 。 这 样 一 来 我 们 
可 以 把 地 址 族 维 持 在 一 个 适当 的 水 平 。 我 们 不 给 出 这 个 无 关 紧 要 的 函 
数 ， 不 过 其 源 代 码 同 样 随 意 可 得 〈 见 前 言 ) 。 
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图 21-11 给 出 了 mcast_join 函 数 的 中 间 三 分 之 一 部 分 。 这 部 分 处 理 
IPv4 套 接 字 选项 版 本 。 




















livincast_join.c 





26 ewireh (grp-sss famiiy!: ( 

27 cass AP INET: | 

uu struct ip mreq mreq, 

29 struct Frey ifres; 

30 mewncpy(amreq.imr multiaddr, 

31 &(:2onst struct sockaddr in *) grp)-»5in addr. 

32 sizaot (struct in ad3dr]!; 

33 i= [ifindex > 0) ( 

34 if (if indexconans(ifindex, ifreg.ifr_ name) == NULL) { 
35 errno = ZNXIO; /* i/f index not found */ 

36 rcturn(-1) :; 

3 了 

38 goto doicctl; 

a9 ) ¢lse ¿f (ifmame != NULL) ( 

40 strncpy'ifzeq.ifr nane, ifmame. IPNAMSIZ!; 

41 doioct.: 

327 if (tocrtl;sock*d, SIOCGIFADDR, &i*re-) < 0) 

43 return(-1); 

44 rewucrzy(&mreq.imr interface, 

45 &('struct sockaddr in *) Rifreq.:fr aeddr)-2sin adir, 
46 sizeof (struct ín aódr)!; 

47 ) cise 

aa mr eeg nr im er^ece 4 addi = hton] (THAN R_ANY) ; 

49 return(setsockopr (sockfd, ISPROT2O IP, LP ALD MEMBERSHIP, 
£0 Snreq, sizeof (mreq))); 

E1 } 


libfmeast join.c 


图 21-11 加 入 一 个 多 播 组 : IPvA EE 
处 理 索 引 


33-38 ”把 套 接 字 地 址 结构 中 的 IPv4 多 播 地 址 复制 到 一 个 ijp_mreq 结 
构 中 。 如 果 调 用 者 给 定 接口 索引 ， 那 就 调用 if_indextoname 把 接口 名 字 
人 吉 构 中 。 该 调用 成 功 返 回 后 ， 我 们 往 前 跳 转 以 发 出 ioctl 
请 5 o 


处 理 名 字 


39-46 把 调用 者 给 定 的 接口 名 字 复 制 到 一 个 ifreq 结 构 中 ， 并 发 出 
ioct1 的 SIocGIFADDR 请 求 返 回 与 ar 字 关 联 的 单 播 地 址 。 把 成 功 返 回 的 
IPv4 单 播 地 址 复制 到 那个 ip_ mreqZ 吉 构 的 jmr_interface 成 员 。 


指定 默认 设置 
47~48 ”如 宋 接 口 索 引 和 接口 名 字 都 未 给 定 ， 那 就 把 接口 设置 为 通 











配 地 址 ， 告 知 内 核 去 选择 接口 。 
49-50 ”setsockopt 执 行 组 如 入 操作 。 


图 21-12 给 出 了 mcast_join 函 数 的 后 三 分 之 一 部 分 。 这 部 分 处 理 IPv6 
套 接 字 选项 版 本 。 


568 


lib/ncast join.c 





52 fifüef  LPU6 


53 case AF_INETS: | 

54 struct ipv6é mrec mreq6; 

55 memcpy (&mregé.-pyvone_multiaddr, 

5€ &( (const struct sockaddr ine *! arp)-»sino addr, 
37 sizeof struct inf sddrl); 

5s if {ifindex ~ 0) { 

59 mreqóo.ipv6mr interface = ifirdex; 

50 ) eise is {irname |= NULL! [ 

61 if | (mreqé6.invéme_interface = -f namcoindex(ifname)) == 61 ( 
62 ermo = ENXIO; /* i/f nave not found */ 

53 re-urn(í-1): 

64 } 

55 ) eise 

66 mreqé6.ipvémr_interface = 0; 

LY recurn(eetcockopt(secc«fd, IPPRUTO IPV6, IPV6 COIN GROUP, 
AR fanregé, sizeof iwreg) 1); 

59 } 

70 fendif 

71 default: 

77 errno m SAFNOSUFPORT; 

73 return(-1); 

74 ) 

75 tendif 

76 ] 


lib/mcast join.c 


图 21-12 ”加 入 一 个 多 播 组 : IPv6 套 接 字 
复制 地 址 


55-57 ”首先 把 套 接 字 地 址 结构 中 的 IPv6 多 播 地 址 复制 到 一 
个 ijpv6_mreq 结 构 中 。 


处 理 索引 、 名 字 或 默认 设置 


58-66 ”如 果 调 用 者 给 定 接口 索引 ， 那 就 把 该 索引 复制 
到 ipv6mr_interface 成 员 ; 否则 如 果 调 用 者 给 定 接口 名 字 ， 那 就 调 
用 if_nametoindex 取 得 索引 再 不 然 就 把 接口 索引 置 为 0， 告 知 内 核 去 
选择 接口 。 

67-68 ”最 后 调用 setsockopt 加 入 组 。 
21.7.2 fil: mcast set loopriAZW 


21-1325 H1 f FRAT ]mcast. set loopPAZAL. 











lil/mccst, sel loop.c 





1 include "urp.h" 


2 int 
3 moact set loop(int socktd, int oncff) 


E i 

5 switch (sockfd tc family(sockfd)] | 

6 casa AF INET: { 

7 u_char tlag; 

8 flag = onoff. 

9 rel urn(setapckoptr (suckfü, T9PROTO TP, TP NILTTCAST DOCP, 
10 &Elag, sizeof(f.ag!])!; 

11 } 

12 ifdef  IPV6 

13 case AF_INETS: : 

14 u int fiag; 

15 flag = onoff; 

16 return (satsockopt |sockic, -2PROTO IPVé, IPV6 MULTICAST LOCP, 
17 &flag, s-zeof(flag)'), 

1a } 

19 fendi? 

0 default: 

21 errno = EAFNOSUPPORT; 

22 return(-1); 

23 ] 


liE/mcoost sei loop.c 
图 21-13 ”设置 多 播 回 馈 选 项 
既然 函数 参数 是 一 个 套 接 字 描述 符 而 不 是 一 个 套 接 字 地 址 结构 ， 我 


们 于 是 调用 自己 的 sockfd_to_family 函 数 获取 该 套 接 字 的 地 址 族 。 随 后 
设置 相应 的 套 接 字 选项 。 


我 们 不 再 给 出 其 余 mcast_xxX 沙 数 的 源 代码 ， 不 过 它们 部 是 可 目 由 
获取 的 〈 见 前 言 ) 。 
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21.8 (EHZ dh dg clik žr 


我 们 通过 简单 地 去 掉 setsockopt 调 用 来 修改 图 20-5 中 的 dg_cl1i 函 
数 。 如 前 所 述 ， 如 果 外 出 接口 、TTL 和 回馈 选项 的 默认 设置 可 以 接受 ， 
那么 发 送 多 播 数据 报 无 甫 设置 任何 多 播 套 接 字 选项 。 我 们 指定 所 有 主机 
组 为 服务 右 地 址 来 运行 我 们 的 客户 程序 。 

macosx % udpcli01 224.0.0.1 

hi there 


from 172.24.37.78: hi there MacOS X 
from 172.24.37.94: hi there FreeBSD 











所 在 子 网 中 共有 两 个 主机 啊 应 。 它 们 具备 多 播 能 力 ， 从 而 都 加 入 了 
所 有 主机 组 ， 并 且 都 运行 着 端口 号 为 7 的 标准 UDP 回 射 服务 器 。 每 个 应 
答 数据 报 都 是 单 播 的 ， 因 为 请 求 数据 报 的 单 播 产 地 址 被 每 个 服务 器 用 作 
应 答 数据 报 的 目的 地 址 。 





570 
IP: FRU TR 


我 们 在 20.4 节 末尾 提 过 ， 大 多 数 系统 把 个 允许 对 ) 播 数据 报 执行 分 
片 作为 一 个 决策 。 分 片 操作 对 于 多 播 数 据 报 却 不 成 问题 ， 我 们 可 以 使 用 
同一 个 含有 长 度 为 2000 字 节 的 单个 文本 行 的 文件 简单 地 验证 。 


macosx % udpcli01 224.0.0.1 < 2000line 
from 172.24.37.78: XXXXXXXXXX[...] 
from 172.24.37.94: XXXXXXXXXX[...] 





21.9 ”接收 IP 多 播 基 础 设施 会 话 声 明 


IP 多 播 基 础 设施 (IP multicast infrastructure) 是 具备 域 间 多 播 能 
的 因特网 之 一 部 分 。 多 播 并 未 在 整个 因特网 上 开通 。IP 多 播 基础 设施 的 
前 身 是 作为 一 个 层 又 网络 从 1992 年 开始 的 MBone 〈B.2 节 ) ， 到 1998 年 
转 成 作为 因特网 基础 设施 之 一 部 分 部 署 的 多 播 基 础 设施 。 多 播 可 能 在 企 
业 范 围 内 部 署 较 广 ， 然 而 很 少 是 域 间 卫 多 播 基 础 设施 的 构成 部 分 。 


为 了 在 IP 多 播 基 础 设施 上 接收 一 个 多 媒体 会 议 ， 站 点 只 需要 知道 该 
会 议 的 多 播 地 址 及 其 会 议 数据 流 《〈 音 频 和 视频 等 ) 所 用 的 UDP 端口 。 会 
话 声明 协议 (Session Announcement Protocol, SAP, JiLRFC 
2974 [| Handley, Perkins, and Whelan 2000] ) 描述 会 话 声 明 方法 〈 多 播 
到 IP 多 播 基础 设施 上 的 会 话 声明 所 用 的 分 组 首部 和 发 送 频率 ) ， 会 话 摘 
述 协议 (Session Description Protocol，SDP， 见 RFC 2327 [Handley and 
Jacobson 1998] ) 则 描述 所 声明 的 内 容 〈 如 何 指定 会 话 的 多 播 地 址 和 
UDP 端口 ) 。 想 要 在 IP 多 播 基础 设施 上 声明 某 个 会 话 的 站 点 会 周期 性 地 
往 一 个 众所周知 的 多 播 组 和 UDP 端口 发 送 包 含 所 声明 会 话 的 某 个 描述 的 
一 个 多 播 分 组 。IP 多 播 基础 设施 上 的 站 点 运行 一 个 名 为 sdr 的 程序 来 接 
收 这 些 声明 。 这 个 程序 做 许多 工作 ， 不 仪 接收 会 话 声明 ， 而 且 提 供 一 个 
交互 式 的 用 户 界面 以 显示 这 些 信息 并 允许 用 户 发 送 上 自己 的 声明 。 

我 们 在 本 节 开 发 一 个 仅仅 接收 这 些 会 话 声 明 的 简单 程序 ， 从 而 展示 
一 个 简单 的 多 播 接收 程序 例子 。 我 们 的 目的 在 于 展示 多 播 接 收费 程序 的 
简单 性 ， 而 不 是 深入 到 其 中 的 细节 。 


图 21-14 给 出 了 接收 定期 多 播 的 SAP/SDP 声 明 的 程序 的 main 函 数 。 

















— mysc'rnain.c 





1 #incluce "uüup.h" 

2 Fdecine SAP NAME "sap.mcast.net" /* default group nane and poirt */ 
3 £de-ins SAP FORT "9375" 

4 void lozp(int, socklen t Je 

5 int 


6 main(int argc, char **argv] 
a 


& int socked; 

9 comet int cn = 1; 

10 cocklen t salen; 

11 struct socxaddr tga; 

12 a= (roc =a 1) 

13 sozkfd = Udp cliert(SAP NAME, SAP_PORT, (void **) &sa, Ssaleni; 
14 else if (arg? zs «| 

15 socktd = Udp cliert(arqv[1], arqv[2;, (void **! ksa, Gealan); 
16 else 

17 err guit ("usage: mysdr emcast-addr» cporcé#> cinLer^acs-:ames'!; 
15 Setsockopt(socxfá, SOUL SOCKET, SO REUSEAUDR, kcen, sizeofí(on)); 

19 Bind(sccktd, sa, saloni; 

20 Mcast joiní(socxfd, sa, saler, [argc «= 4) 7 argv[3] : NULL, 0) 

21 leopíistckf£d, salen); /^ receive and arint */ 

22 exicio); 


mysc'rniain c 


图 21-14 SAP/SDP 声 明 接 收 程序 的 main 函 数 
众所周知 的 域名 和 众所周知 的 端口 


2-3 ”赋予 SAP 声 明 的 多 播 地 址 是 224.2.127.254， 它 的 域名 
是 sap.mcast.net。 所 有 众所周知 多 播 地 址 的 DNS 域名 《〈 见 


http://www.iana.org/assignments/multicastaddresses) 都 出 现在 mcast .net 
层次 之 下 。 众 所 周知 的 UDP 端口 是 9875。 


创建 UDP 套 接 字 


12-17 “我们 调用 自己 的 udp_client 函 数 查 找 名 字 和 端口 ， 并 让 它 把 
结果 信息 填写 到 合适 的 套 接 字 地 址 结构 中 。 如 果 命 令 行 参数 未 曾 指定 ， 
我 们 就 使 用 默认 的 名 字 和 端口 ， 否 则 束 从 命令 行 参数 中 取得 多 播 地 址 、 
端口 号 和 接口 名 字 。 














binding O 
18-19 ”设置 So_REUSEADDR 套 接 字 选项 以 允许 在 单个 主机 上 运行 本 程 


序 的 多 个 实例 ， 然 后 将 给 定 端口 pind 到 该 套 接 字 。 通 过 将 给 定 多 播 地 址 
捆绑 到 该 套 接 字 ， 我 们 防止 该 套 接 字 接收 目的 端口 为 给 定 端口 的 其 他 


UDP 数据 报 。 多 播 地 址 的 捆绑 并 非 必须 ， 不 过 它 提 供 了 由 内 核 过滤 非 所 
关注 分 组 的 手段 。 


加 入 多 播 组 
20 调用 mcast_join 函 数 加 入 给 定 组 。 如 果 接 口 名 字 已 经 作为 命令 
全 定 ， 那 融 把 它 传递 给 该 函数 ;否则 就 让 入 核 去 选择 在 哪个 接口 
I 入 组 。 


21 我 们 调用 图 21-15 中 给 出 的 loop 函 数 读 取 并 显示 所 有 的 声明 。 


nysdloop.c 





1 include "nysdr.h" 
2 void 
3 lLooplin- seckic, sccklen t salen) 


Oo 

5 sccklen t ler 

6 s5izc t n; 

7 caar *p; 

8 struct sockaddr “sa, 


9 struct sap packet { 

10 uin-32 t sap DMNET 

11 uin-32 r sap mr 

12 char car -jata [BUPFSIZE] : 

13 ] bat; 

14 sa = Malloc (salen); 

15 for-( n3 Ad 

16 ler = salen; 

17 n  Recvfrcn(sockfd, sbuf, sizeof(buf; - i, 2, sa, &len); 
18 ((char *)&-u£) [n] = 0; /* null terminate +/ 
15 buf.saz header = ntohl|buE.sSap header; ; 

20 princt?(*FPrxcn ts hash Oxt0dx\n", Sock ntosisa, len), 

21 buf sag leader & SAF HASH MASK): 

22 a= (¢(suE, aap. header & SAR VERSION | MASE) >> GA? VERSION SHIFT! = 1) f 
a3 err rsg["... version field not 1 (Uxt0sx)", buf.sap header); 
24 vor d inae; 

z5 } 

ue i= (but.sap header & RM, _Ipve) { 

27 err vx" TP 

28 continue; 

29 

30 1* (huf map header & (SAP DELZTE|SAP ENCWYzT*D|SAP COMPRESSEDI) | 
31 e-r xag"... can't parse this packet typ: (0x$0Ex)*', 
32 buE.sap header} ; 

33 continue; 

34 

35 p = buf.sap daza + ((cuf.3sap_neader & SAP AUTHLEN MASK) 
36 >> SAP_AUTHLEN SHIFT); 

37 iZ (streup(p. "applicatliou/smdp'! == C) 

38 p += 15; 

39 printt(*%s\n", pl; 

40 } 

41 


mysdrloer.c 
图 21-15 “接收 并 显示 SAP/SDP 声 明 的 循环 
5717-573 


9-13 ”sap_packet 结 构 描 述 SDP 分 组 : 一 个 32 位 SAP 首 部 ， 后 跟 一 
个 32 位 源 地 址 ， 再 跟 真 正 的 声明 。 声 明 仪 仪 是 大 和 干 行 ISO 8859-1 文 本 ， 
不 得 超过 1024 字 节 。 每 个 UDP 数据 报 只 能 承载 一 个 会 话 声 明 。 


读 入 UDP 数据 报 ， 输 出 发 送 者 和 内 容 
15-24 recvfrom 等 待 下 一 个 到 达 套 接 字 的 UDP 数 据 报 。 一 个 UDP 


数据 报到 达 后 ， 我 们 在 存放 它 的 缓冲 区 末尾 放置 一 个 空 字 节 ， 修 正 首 部 
字段 的 字 节 序 ， 然 后 显示 其 发 送 者 的 卫 地 址 和 端口 号 ， 并 显示 SAP 散 列 
值 。 





检查 SAP 首 部 


22-34 ”检查 SAP 首 部 ， 确 认 是 否 为 我 们 处 理 的 类 型 。 我 们 不 处 理 
在 首部 中 使 用 IPv6 地 址 的 SAP 分 组 ， 也 不 处 理 压 缩 的 或 加 密 的 分 组 。 


找到 声明 起 始 处 并 显示 


35-39 ” 跳 过 可 能 存在 任何 认证 数据 和 分 组 内 容 类 型 ， 然 后 显示 分 
组 的 内 容 。 


图 21-16 给 出 了 出 目 本 程序 的 一 些 典 型 输出 。 





freobsd $% mysdr 

From 123.223.83.33:1928 ash oxü0nan 

vaQ 

C-- 60345 0 IN IE4 126.223.214.193 

£-UO Broadcast - NASA Vidsoc - 25 Yeare o: Progress 

1225 Years of Progress, parre 1-13. Rroadeast wirh Ciscr System's 
IP/TV using MPEGl codec (€ hours 5 Minutes; repeats) More informeaticn 
about IP/TV end the client nseded to view this program is availeble 
from http: //videclab.uorsgon.edu/download.html 

ushttp: //wi dan ah.uaregon .edu/ 

e=Hans Kuhn «uulticastelists.uoregcn,edu» 

E-Hans Kuhn «541/2346-1753- 

E2sA5:11020 

t=0 C 

a=tybe : broadcast 

aztocl;IP/TV Content Manager 3.2.24 

aex-iptv-file:l name y:25yo0pl1234557892123.mpg 

m-vióeo 63095 RTE/AVP 32 31 95 

C-IN IP4 224.2.2435.25/127 

a=framerate: 30 

a-rtpmao:96 WBIH/SQ02C 

a=x-iptv-svr:videc blasrerz uoregon.edu file | loop 

mauiio 31954 RTP/AVP 14 96 0 3 5 97 38 99 100 10: 102 10 11 103 104 105 106 
c=IN IP4 224.2.216.85/127 

a-rtopmas:96 X-WAVE/ 9000 

asrrpman:97 LE/8000/2 

easrL.pumap:$8 L&/8000 

a-rtemao.99 LE/22050/2 

a-rzpmap:100 L8/22052 

asrrpman:101 L8/11025/2 

aar pmap:102 L8/11025 

&8-rzpmao:103 L16/22050/2 

a-rrgmap:104 L16/22050 

asrrpmap:105 T/5/11025/2 

āa=ripmap:106 Ll6/11025 

a-x-iptv-svz;&udic blasterz.usreqon.edu file 1 loop 


图 21-16 ”典型 的 SAP/SDP 声 明 
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这 个 声明 摘 述 的 是 NASA 在 IP 多 播 基础 设施 上 关于 某 次 航天 飞机 使 
命 的 报道 。SDP 会 话 描述 由 许多 形 如 type=value 格 式 的 文本 行 构成 ， 其 
中 type 总 是 单个 字符 且 区 分 大 小 写 。value 则 是 一 个 依赖 于 type 的 有 结构 
的 文本 串 。 等 号 两 边 不 允许 有 空格 。 


v=0 是 版 本 。 


o= 是 来 源 。- 表 示 无 确切 用 户 名 ，66345 是 会 话 ID，9 是 这 个 声明 的 
版 本 号 ，IN 是 网 络 类 型 ，IP4 是 地 址 类 型 ，128.223.214.198 是 地 址 。 由 
用 户 名 、 会 话 ID、 网 络 类 型 、 地 址 类 型 和 地 址 构成 的 五 元 组 是 本 会 话 的 
一 个 全 球 唯 一 的 标识 。 





s= 定 义 会 话 名 字 ，i= 给 出 关于 会 话 的 信息 。 我 们 对 后 者 按 每 80 个 字 
节 一 次 作 了 折 行 处 理 。u= 给 出 一 个 统一 资源 标识 (Uniform Resource 
Identifier，URI) ， 其 上 提供 关于 本 会 话 的 更 详细 信息 ，e= 和 p= 则 分 别 
提供 会 议 负 责 人 的 电子 邮件 地 址 和 电话 号 人 码 。 


b= 提供 本 会 话 预 期 带宽 的 一 个 测算 量 。t= 提 供 均 以 NTP 单 位 给 出 的 
起 始 时 间 和 停止 时 间 ， 即 从 UTC 时 间 以 来 的 秒 数 。 本 会 话 是 永久 的 ， 
为 起 止 时 间 都 是 0。 


a= 是 属性 行 ， 奉 出 现在 任何 m= 行 之 前 则 为 会 话 属性 ， 知 出 现在 茶 
个 m= 行 之 后 则 为 相应 媒体 的 属性 。 


m= 是 媒体 声明 ， 共 有 2 行 。 其 中 第 一 行 指明 视频 在 端口 63096 上 ， 格 
式 为 实时 传输 协议 CReal-time Transport Protocol, RTP) ， 使 用 音频 / 视 
wee JER (Audio/Video Profile) ， 可 能 净 和 荷 类 型 为 32、31 和 96 (分别 表示 
MPEG、H.261 和 WBIH) 。 紧 接 的 c= 行 提供 本 媒体 连接 信息 ， 在 本 例子 
中 指明 该 连接 基于 IP， 使 用 IPv4， 多 播 地 址 为 224.2.245.25，TTL 为 
127。 昌 然 这 些 是 由 和 斜 杠 分 开 的 ， 就 如 同 CIDR 前 级 那样 ， 但 这 并 不 是 用 
来 表示 前 绥 或 掩 码 的 。 


下 一 个 m= 行 指明 音频 在 31954 端 口 ， 可 能 的 RTP/AVP 净 荷 类 型 有 若 
二 个 ， 其 中 一 些 是 标准 的 ， 一 些 由 随后 的 a=rtpmap :进一步 说 明 。 紧 接 
的 c= 行 提供 本 媒体 的 连接 信息 ， 在 本 例子 中 指明 该 连接 基于 IP， 使 用 
IPv4， 多 播 地 址 为 224.2.216.85，TTL 为 127。 





21.10 发送 和 接收 


上 一 节 中 的 IP 多 播 基础 设施 会 话 声明 程序 只 接收 多 播 数据 报 。 我 们 
在 本 节 开 发 一 个 既 发 送 又 接收 多 播 数 据 报 的 简单 程序 。 该 程序 包 合 两 部 
分 。 第 一 部 分 每 5 秒 钟 发 送 一 个 目的 地 为 指定 组 的 多 播 数 据 报 ， 其 中 含 
有 发 送 进程 的 主机 名 和 进程 ID。 第 二 部 分 是 一 个 无 限 循 环 ， 先 加 入 由 第 
一 部 分 发 往 的 多 播 组 ， 再 显示 接收 到 的 每 个 数据 报 〈 其 中 含有 发 送 进程 
的 主机 名 和 进程 ID) 。 这 样 安 排 使 得 我 们 可 以 在 一 个 局 域 网 内 的 多 个 主 
d 动 该 程序 ， 以 便 丛 看 哪个 主机 在 接收 来 目 哪 些 发 送 进程 的 数据 
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图 21-17 给 出 了 该 程序 的 main 函 数 。 


arcast/mai.c 





71 #ioclude "uns h* 


2 void recv all;int, socklen t): 

3 void fend slliint, SA *, sockléen t); 

4 int 

© main(int arge, char **argy) 

e { 

7 int sendtd, recvtd; 

C consc int or = 1; 

s so-klen t salen; 

1c struct sockaddr *sasend, *sarecy; 

11 if (argo != 3) 

12 ery qui-;'usagr: sandrecy <IP-multicast address- <pcrt#-"); 
13 sendfd = Udp_clientfargv[1], azsgvl2], (void **) &saserd, Ssalen! ; 
14 recvfd s Socket (sasend->sa_family, BOCK DGRAM, 0}; 

15 Seteockopt[recvtd, SUL SCCXET, SO RsUSEADDE, &on, sizeof joni); 
1€ garecy = Malicc(salen) ; 

了 temcpy(sarecy, sasend, salen) ; 

18 Bind(recvfd, sarecv, salen); 

1s meast joiní(recvfd, sssen$, saler, NULL, ©); 

2c Meast oct .2op;S3endtd, 0); 

21 if [Fork() -- 0) 

22 recu sllij-ecvf3, salen); f* child -> receives */ 

23 send all(serdfd, sasend, salon); f* parent -> sends */ 

24 } 


mcast/main.c 








图 21-17 ”创建 套 接 字 ，fork， 再 启动 发 送 进程 与 接收 进程 
我 们 创建 两 个 套 接 字 ， 一 个 用 于 发 送 ， 另 一 个 用 于 接收 。 我 们 想 要 











给 接收 套 接 字 捆 绑 多 播 组 和 端口 ， 比 如 说 239.255.1.2 端 口 8888。 (回顾 
一 下 ， 我 们 可 以 只 捆绑 通 配 IP 地 址 和 端口 8888， 不 过 还 是 捆绑 多 播 地 址 
以 防止 目的 端口 同 为 8888 的 其 他 数据 报到 达 本 套 接 字 。) 接着 想 要 接收 
套 接 字 加 入 多 播 组 。 发 送 套 接 字 将 发 送 数据 报到 同一 个 多 播 地 址 和 端 
口 ， 也 就 是 239.255.1.2 端 口 8888。 但 是 如 果 我 们 试图 用 单个 套 接 字 进行 
发 送 和 接收 ， 那 么 所 收发 数据 报 的 源 协 议 地 址 将 是 出 自 bind 调 用 的 
239.255.1.2:8888 (使 用 netstat 记 法 ) ， 目 的 协议 地 址 〈 调 用 sendto 时 
HE) 也 将 是 239.255.1.2:8888。 这 么 一 来 ， 捆 绑 在 该 套 接 字 上 的 源 协 议 
地 址 成 了 UDP 数据 报 的 源 IP 地 址 ， 而 RFC 1122 [Braden 1989] 禁止 出 现 
源 IP 地 址 是 多 播 地 址 或 广播 地 址 的 IP 数 据 报 〈 见 习题 21.2) 。 因 此 ， 我 
们 必须 创建 两 个 套 接 字 : 一 个 用 于 发 送 ， 另 一 个 用 于 接收 。 


576 





创建 发 送 套 接 字 


is ”我 们 的 udp_client 函 数 创 建 发送 套 接 字 ， 并 处 理 指定 多 播 地 址 
和 端口 号 的 那 两 个 命令 行 参数 。 该 函数 还 返回 可 用 于 调用 sendto 的 一 个 
套 接 字 地 址 结构 及 其 长 度 。 


创建 接收 套 接 字 并 捆绑 多 播 地 址 和 端口 


iis ”创建 接收 套 接 字 ， 所 用 地 址 族 与 创建 发 送 套 接 字 所 用 的 一 
样 。 设 置 s0_REUSEADDR 套 接 字 选项 以 允许 这 个 程序 的 多 个 实例 同时 在 单 
一 主机 上 运行 。 我 们 接着 给 这 个 套 接 字 分 配 一 个 套 接 字 地 址 结构 的 空 
间 ， 并 从 发 送 套 接 字 地 址 结构 复制 其 内 容 (发 送 套 接 字 的 地 址 和 端口 取 
自命 令 行 参数 ) ， 再 把 其 中 的 多 播 地 址 和 端口 bind 在 接收 套 接 字 上 。 


加 入 多 播 组 并 禁止 回馈 

19-20 ”调用 我 们 的 mcast_join 函 数 在 接收 套 接 字 上 加 入 多 播 组 ， 再 
调用 我 们 的 mcast_set_loop 畏 数 禁 止 发 送 套 接 字 上 的 回馈 特性 。 加 入 多 
播 组 时 指定 接口 名 字 为 空 指针 ， 接 口 索 引 为 0， 从 而 告知 内 核 去 选择 接 
Ho 
fork 并 调用 相应 函数 


21-23 ”fork 后 子 进程 就 是 接收 循环 ， 父 进程 就 是 发 送 循环 。 




















图 21-18 给 出 了 我 们 的 send_al1 函 数 ， 它 每 5 秒 钟 发 送 一 个 多 播 数据 
th. maine AGB Ay. FES Sie A HOE A Big OE 
接 字 地 址 结构 的 指针 以 及 该 结构 的 长 度 作 为 参数 传递 给 send_al1。 


meastisend.c 








1 inclui- "ur p.h" 

2 finclude «sSys/utsname -> 

3 #define SENDRATE 5 /* send ome datagram every five seconds */ 
4 void 


5 send alllirt sendfd, SA *sadest, socklen_t salen) 


caar Line [MAXLINE]; /* hoctrame and procece ID */ 
0 struct utaname  mvnare; 
9 it (uname(&mynamsa] < 0! 
10 err sysi"uname error") ;i 
11 sa3printiiline, sizsof!line), "ts, d\n", mynzms.rodename, getpii!)! 
12 for | Fs kd 
13 Serdto({sendfd, line, strien(line), 0, sadest, salen); 
14 Eleep(sENDAATE! ; 
15 j 
16 


incastÁead 





图 21-18 每 5 秒 钟 发 送 一 个 多 播 数据 报 
获取 主机 名 并 形成 数据 报 内 容 


9-11 ”从 uname 函 数 获 得 主机 名 并 构造 一 个 包含 主机 名 和 进程 有 D 的 
MHE íT. 


发 送 数 据 报 ， 接 着 去 睡眠 
12-45 ”发 送 一 个 数据 报 后 调用 sleep 睡 虐 5 秒 钟 。 
图 21-19 给 出 了 我 们 的 recv_all 函 数 ， 它 是 一 个 无 限 的 接收 循环 。 


"nost rmv. c 





1 include "ur.p. hi" 
2 void 
3 rscv alllirt recvfd, socklen t salen) 


& 1 


s int n; 

6 char lins [MAXLINE+1] ; 

7 sccklen t. ler; 

a struct sockaddr *safrom; 

9 safrom = Melloc(salen); 

10 Zr Rd 

1i ler = salen; 

12 n = Recvircm(recvfd, line, MAXLINE, C. safrom, &len): 
13 lire[n] = J; /* mull terninata */ 

14 printf(*£rcn $3: $3", 5o2cx ntop(safrzom, len), line!; 


m i 
15 j 

16 ， 

TEA A A 








21-19 ”接收 到 达 所 加 入 组 的 所 有 多 播 数据 报 
分 配套 接 字 地 址 结构 


9 分 配 一 个 套 接 字 地 址 结构 以 存放 每 次 调用 recvfrom 返 回 的 发 送 
进程 的 协议 地 址 。 


读 入 并 输出 数据 报 


10-15 每 一 个 数据 报 由 recvfrom 读 入 ， 以 空 字 FEZ 吉 尾 后 显示 输 
Ibo 


577—578 
运行 示例 


我 们 在 freebsd4 和 macosx 这 2 个 系统 上 运行 本 程序 ， 看 到 每 个 系统 都 
接收 了 由 男 一 个 系统 发 送 的 分 组 。 


freebsd4 % sendrecv 239.255.1.2 8888 

from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 


macosx % sendrecv 239.255.1.2 8888 

from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 


21.41 SNTP: 简单 网 络 时 间 协 议 


网 络 时 间 协 议 NTP 是 一 个 用 于 跨 广 域 网 或 局 域 网 同步 时 钟 的 复杂 协 
议 ， 往 往 能 够 达到 毫秒 级 的 精度 。RFC 1305 [Mills 1992] 详细 叙述 了 
这 个 协议 ，RFC 2030 [Mills 1996] 则 叙述 了 NTP 的 一 个 简化 版 本 
SNTP， 用 于 那些 不 需要 完整 的 NTP 实 现 之 复杂 性 的 主机 。 通 常 的 做 法 
Fe: 让 局 域 网 内 的 少数 几 个 主机 路 因特网 与 其 他 NTP 主 机 同步 时 钟 ， 然 
后 由 这 些 主机 在 局 域 网 内 使 用 广播 或 多 播 重 新 发 布 时 间 。 


我 们 在 本 节 开 发 一 个 SNTP 客 户 程 序 ， 它 在 与 本 地 主机 直接 连接 的 
所 有 网 络 上 听取 NTP 广 播 或 多 播 分 组 ， 接 着 输出 各 个 NTP 分 组 与 本 地 主 
我 们 并 不 试图 修正 当前 时 间 ， 因 为 那么 做 需要 超级 用 
户 权 限 。 
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如 图 21-20 所 示 的 ntp.h 文 件 包 含 天 于 NTP 分 组 格式 的 一 些 基本 定 
Mo 


ssutpinto. hy 


1 #deline JAN 1970 222838880CUL /^ 1970 - 1900 in seconds */ 
2 struct 1 fixedpr | /* E4-bit fixed-point */ 
3 uirt:2 t int part; 
EI uirt32 t fracticn; 
s); i 
Je 
6 ozxuct o tixedpt | /* 32-bit fixed-point */ 
7 uinti t inc part; 
a uirt16 t fraction; 
E] hi 
10 struct ntpdata | /* NTE Leader */ 
11 u_char status; 
12 u char Etratum; 
13 u_char opell; 
14 int precision:3; 


15 struct s fixednt distance; 

16 struct 5 fixedpt  dicperoion: 
7  wirt22 t refid; 

1& struct 1 fixedot  reftime; 

19 struct 1 fixedpt  crg; 

20 struct 1 fixedpt rec; 

21 struct 1 fixedpt xnt; 


22 ]; 

23 fdeline VERSION MASE DX3E 
24 #Gezins MOLE MASK 0x07 
25 &üdeline MOCE CLINT a 
26 #define MOCE SXEVER 4 


27 #deftinc MOCE_BROADCAST 5 
ID 


图 21-20 ”ntp.h 头 文件 ，NTP 分 组 格式 与 定义 


2-22 1_fixedpt 定 义 NTP 用 于 时 间 礁 的 64 位 定点 值 ，s_fixedpt 定 
义 NTP 所 用 的 32 位 定点 值 。ntpdata 结 构 是 48 字 节 的 NTP 数 据 报 格式 。 


图 21-21 给 出 了 main 函 数 。 


SST in. 





1 include "snip oi? 

3 int 

3 nain!in- argc. char **arav! 

5 int soczkfd; 

€ cnar bu£ [VAXLINZ]: 

? ssize tn: 

A sccklen t saler, isn; 

9 struct ifi info rifi; 

10 strucz sockaddr *ncastoa, *wild, *from; 

11 straz tineval Ow; 

12 it {argc I= 3; 

3 err S3uit("usage. ssntp «IFaddress»"!; 

14 suckfd = Udp clieuL/argv[1), "nlp", (void ^*) S&urasLsa, asales! ; 
15 wild = Malloe (salen); 

16 menzpy|wild. moastoa, calen); /* copy fanily and port */ 
17 scck aset wilc[wild, salen): 

18 Bindisockfd. wild, salen!; /* bind wildcard */ 


19 fitdot MCAST 
20 /* obtain interface list and process esch cone */ 


21 fcr (ifi = Get if: infaímrastsa-»sa family, 1); ifi 'z NULL; 
a2 ifi = ifi->ifi next) ‘ 

23 it [ifi >ifi_flags & IPP_MULTICAST) ( 

z4 Mcast_join(sockfd, mcascsa, salen, -fi-»ifi name, 0); 
25 princf(*joined $s on tsn", 

i6 Scck ntop(meastsea, salen}, ifi-»:fi name): 
z7 } 

28 ] 

29 fandi? 

30 from = Mallcc (salen); 

31 for ( ¢ 3 I { 

a2 ler - salen; 

33 n = Recv£rcen(scockfd, cuf, ciseofibut), 0, Excm, Glen); 
34 Gettimeofday (now, NULL); 

35 sntp pro-íc-uf, n, &nen); 

36 } 

37 
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图 21-21 main 2X 
获得 多 播 IP 地 址 


12~14 用户 执行 本 程序 时 必须 作为 命令 行 参数 指定 要 加 入 的 多 播 
地 址 。 对 于 IPV4， 这 将 是 224.0.1.1 或 域名 ntp.mcast.net。 对 于 IPV6， 这 
将 是 网 点 局 部 范围 内 NTP 的 ffo5::191。 我 们 的 udp_client 函 数 为 一 个 正 
确 类 型 (IPv4 或 IPv6) 的 套 接 字 地 址 结构 分 配 空间 ， 并 在 该 结构 中 存放 
多 播 地 址 和 端口 。 如 果 是 在 不 文 持 多 播 的 主机 上 运行 本 程序 ， 那 么 可 以 
随意 指定 一 个 下 地 址 ， 因 为 本 程序 仅仅 使 用 取 上 自 该 结构 的 地 址 族 和 端口 
号 信息 。 注 意 udp_clLient 并 不 把 地 址 捆绑 到 套 接 字 上 ， 它 只 是 创建 套 接 

















字 并 填写 套 接 字 地 址 结构 。 
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把 通 配 地 址 捆绑 到 套 接 字 

15~18 ”为 男 一 个 套 接 字 地 址 结构 分 配 空间 ， 并 把 由 udp_client 填 写 
的 结构 复制 填写 到 其 中 ， 从 而 设置 该 结构 的 地 址 族 和 端口 字段 。 接 着 调 
用 我 们 的 sock_set_wi1ld 了 水 数 设 置 该 结构 的 IP 地 址 字段 为 通 配 地 址 ， 然 后 
调用 bind。 
获得 接口 列表 


20-22 ”我 们 的 get_ifi_info 函 数 返回 所 有 接口 和 地 址 的 信息 。 我 们 
查询 的 地 址 族 取 自 以 udp_client 基 于 命令 行 参 数 填写 的 套 接 字 地 址 结 
构 








加 入 多 播 组 


23-27 ”调用 我 们 的 mcast_join 函 数 在 每 个 具备 多 播 能 力 的 接口 上 加 
入 由 命令 行 参数 指定 的 多 播 组 。 所 有 这 些 加 入 操作 都 通过 本 程序 使 用 的 
单个 套 接 字 执 行 。 我 们 以 前 提 到 过 ， 通 常 每 个 套 接 字 都 有 一 
个 IP_MAX_MEMBERSHIPS《〈 其 值 一 般 为 20) 次 加 入 操作 的 限制 ， 不 过 拥有 
那么 多 接口 的 多 宿主 机 相当 少见 。 


读 入 并 处 理 所 有 NTP 分 组 


30-36 ”再 分 配 一 个 套 接 字 地 址 结构 的 空间 以 存放 由 recvfrom 返 回 
的 地 址 。 程 序 接着 进入 一 个 无 限 循环 ， 先 读 入 本 主机 收 到 的 所 有 NTP 分 
组 ， 再 调用 我 们 的 sntp_proc 函 数 〈 稍 后 讲解 ) 处 理 每 个 分 组 。 既 然 本 
套 接 字 上 绑 定 的 是 通 配 地 址 ， 而 且 已 经 在 所 有 有 具备 多 播 能 力 的 接口 上 加 
入 了 给 定 多 播 组 ， 因 此 本 套 接 字 应 该 接收 本 主机 收 到 的 任何 单 播 、 广 播 
或 多 播 NTP 分 组 。 在 调用 sntp_proc 前 我 们 调用 gettimeofday 取 得 当前 时 
间 ， 因 为 sntp_proc 需 计算 包含 在 NTP 分 组 中 的 时 间 和 当前 时 间 之 差 。 


图 21-22 给 出 的 sntp_proc 函 数 处 理 真 正 的 NTP 分 组 。 














SHLD HD proc. c 





1 $include "arto. h*® 


2 void 


4 

5 int version, made; 

6 uint32 t nsec, useci; 

7 dcubleo uscet; 

8 struct timevel diff, 

9 sLruct nt(xlaba *nbp; 

10 if (n < issize t)sizeofistruct rtpdata)) [ 

31 print=(*\ncacket too small: td bytee\n", n}; 

12 return; 

13 } 

14 ntp = (struct ntcdata t) buf: 

15 vorsicn = Intp »status & VERSION MAZKI! >> 3: 

16 mds - ntp-»stetus & MODZ MASK; 

17 pr-ntfi*'Mnv&c, moda td, strat d, ", version, mode, ntr-»stratum); 
18 if (mode == MOVE CLIENT) { 

19 print? (*client\n"); 

20 reluri; 

4l } 

<2 mses = ntohl(ntp-»xmt.in-z part) - JAN 12370; 

<3 useci = nzohl (ntp--xrt. fraction) /* 32-bit integer fracticn */ 
24 usecf = useci; /* integer fraction -» double */ 
25 use^f /= i294SE7295.2; /* divise by 2**32 -> [0, 1.2] v/ 
z6 usesi = uocct * 1000200.2; /* tracticn -> parto per million */ 
27 diff.zv sec = nowpbr-»tv sec - nsec; 

7R if ( LEE Lu usec m Now -LY usec - wei) e ©) i 

23 diff.tv usec += 10000Cc0; 

30 diff.tv sec--; 

ai } 

22 usevi = (diff Lv sec * 1000000) + diff,:v usec; /* di^f in micros */ 
33 prlnctf!'clock difference - 3d usec\n*, useci): 

34 : 
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图 21-22 sntp procrÉZÉ: 处 理 SNTP 分 组 
验证 分 组 的 有 效 性 


10-21 首先 检查 分 组 的 大 小 ， 接 着 输出 版 本 、 模 式 和 服务 右 层 次 
(server stratum) 。 如 果 模 式 为 MoDE_CLIENT， 那 么 本 分 组 是 一 个 客户 请 
求 而 不 是 一 个 服务 嚣 应答， 于 是 我 们 忽略 它 。 


从 NTP 分 组 获取 发 送 时 间 


22-33 NTP 分 组 中 我 们 感 兴趣 的 字段 是 表示 发 送 时 间 惟 的 xmt， 它 
是 服务 器 发 送 本 分 组 时 刻 的 64 位 定点 时 间 。 由 于 NTP 时 间 惟 从 1900 年 开 
台 计 秒 数 ， 而 Unix 时 间 惟 从 1970 年 开始 计 秒 数 ， 我 们 于 是 首先 从 xmt 的 
整数 部 分 中 减 去 JAN_1976 〈1900 一 1970 共 70 年 的 秒 数 ) 。 


xmt 的 小 数 部 分 是 一 个 32 位 无 符号 整数 ， 其 值 介 于 0 到 4294967295 之 
间 〈 含 边界 值 ) 。 我 们 把 它 从 32 位 整数 Cuseci) 复制 到 一 个 双 精 度 浮 
点 变量 (usecf) ， 再 除 以 4294967296 (232) 。 结 果 为 大 于 等 于 0.0， 小 
于 1.0。 我 们 对 它 乘 以 1000000《〈1 秒 钟 的 微 秒 数 ) ， 并 把 结果 作为 一 个 
32 位 无 符号 整数 存放 在 变量 useci 中 。 这 是 介 于 0 一 999999 的 微 秒 数 〈 见 
习题 21.5) 。 我 们 转换 成 微 秒 数 是 因为 由 gettimeofday 返 回 的 Unix 时 间 
戳 包 含 两 个 整数 : 从 UTC 时 间 以 来 的 秒 数 以 及 微 秒 数 。 我 们 然后 计算 并 
显示 主机 的 当前 时 间 与 NTP 服 务 器 当前 时 间 之 间 以 微 秒 为 单位 的 时 间 


582 
本 程序 没有 考虑 服务 器 和 客户 之 间 的 网 络 延迟 。 然 而 我 们 假设 在 局 
域 网 内 NTP 分 组 通常 作为 广播 或 多 播 数据 报 接收 ， 这 种 情况 下 网 络 延 迟 
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我 们 在 主机 macosx 上 运行 本 程序 ， 而 运行 在 主机 freebsd4 上 的 NTP 
服务 器 每 隔 64 秒 钟 多 播 NTP 分 组 一 次 到 所 在 的 以 太 网 ， 于 是 得 到 如 下 输 
出 : 

macosx # ssntp 224.0.1.1 


joined 224.0.1.1.123 on 100 
joined 224.0.1.1.123 on en1 


v4, mode 5, start 3, clock difference - 661 usec 


v4, mode 5, start 3, clock difference - -1789 usec 
v4, mode 5, start 3, clock difference = -2945 usec 
v4, mode 5, start 3, clock difference - -3689 usec 
v4, mode 5, start 3, clock difference - -5425 usec 
v4, mode 5, start 3, clock difference - -8520 usec 


我 们 先 终止 运行 在 本 主机 上 的 正常 的 NTP 服 务 器 再 运行 本 程序 ， 这 
样 当 本 程序 启动 时 本 主机 的 时 间 非 常 接近 于 NTP 服 务 器 主机 的 时 间 。 我 
们 看 到 本 主机 在 384 秒 钟 内 赢 余 9181 微 秒 ， 即 每 24 小 时 约 差 2 秒 。 








21.12 ”小结 


多 播 应 用 进程 一 开始 就 通过 设置 套 接 字 选项 请 求 加 入 赋予 它 的 多 播 
组 。 该 请 求 告知 I 人 P 层 加 入 给 定 组 ，IP 层 再 告知 数据 链 路 层 接收 发 往 相应 
硬件 层 多 播 地 址 的 多 播 帧 。 多 播 利 用 多 数 接口 卡 都 提供 的 硬件 过 滤 减 少 
非 期 望 分 组 的 接收 ， 而 且 过 滤 质 量 越 好 非 期 望 分 组 接收 量 也 越 少 。 这 种 
硬件 过 滤 的 运用 还 降低 了 不 参与 多 播 应 用 系统 的 其 他 主机 上 的 负荷 。 


广域网 上 的 多 播 需 要 具备 多 播 能 力 的 路 由 器 和 多 播 路 由 协议 。 在 因 
特 网 上 所 有 路 由 器 都 具备 多 播 能 力 之 前 ， 多 播 仅 仅 在 因特网 的 茶 些 “ 御 
鸟 ”* 上 可 用 。 这 些 孤 岛 联接 起 来 构成 所 谓 的 IP 多 播 基础 设施 。 
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9 个 套 接 字 选项 提供 了 支持 多 播 的 API: 














在 一 个 接口 上 加 入 一 个 不 限 源 的 多 播 组 ; 

离开 一 个 不 限 源 的 多 播 组 ; 

了 咀 窗 接收 从 一 个 源 到 一 个 已 加 入 多 播 组 的 数据 报 ; 
开通 一 个 被 阻塞 的 源 ; 

在 一 个 接口 上 加 入 一 个 特定 于 源 的 多 播 组 ; 

离开 一 个 特定 于 源 的 多 播 组 ; 

设置 外 出 多 播 数据 报 的 默认 接口 ; 

设置 外 出 多 播 数据 报 的 TIL 或 跳 限 ; 

开局 或 举止 多 播 数据 报 的 回馈 。 


前 6 个 用 于 接收 ， 后 3 个 用 于 发 送 。 这 些 套 接 字 选项 的 IPvV4 和 IPV6 版 
本 之 间 存 在 过 多 的 差异 ， 使 得 使 用 多 播 的 协议 无 关 代 码 因 插入 大 量 的 
#ifdef 伪 代码 而 迅速 变 得 凌乱 不 堪 。 我 们 开发 了 12 个 均 以 mcast_ 打 头 的 
函数 ， 可 以 有 助 于 编写 对 于 IPv4 和 IPv6 都 适用 的 多 播 应 用 程序 。 











习题 


21.1 构造 图 20-9 中 的 程序 ， 在 命令 行 上 指定 IP 地 址 224.0.0.1 执 行 
它 ， 会 发 生 什 么 ? 


212 ”接着 上 个 习题 ， 把 图 20-9 中 的 程序 改 为 捆绑 IP 地 址 224.0.0.1 
和 端口 0 到 它 的 套 接 字 ， 然 后 执行 它 。 你 的 系统 允许 捆绑 多 播 地 址 到 套 
接 字 吗 ? 如 果 你 有 诸如 tcpdump 等 工具 可 用 ， 那 就 用 它们 观察 网 络 上 的 
分 组 。 你 发 送 的 数据 报 的 源 耳 地 址 是 什么 ? 


21.3. ”获悉 子 网 上 哪些 主机 具备 多 播 能 力 的 一 个 方法 是 ping 所 有 主 
机 组 224.0.0.1， 试 一 下 。 


21.4 判定 你 的 主机 是 否 连接 到 了 多 播 基础 设施 的 一 个 方法 是 执行 
21.9 节 中 的 程序 ， 等 竺 数 分 钟 ， 看 是 否 有 任何 会 话 声 明 出 现 。 试 一 下 看 
你 是 否 收 到 任何 声明 。 


21.5” 当 NTP 时 间 惟 的 小 数 部 分 是 1073741824( 即 1/4x232) 时 ， 过 
一 遍 图 21-22 中 的 计算 过 程 。 对 最 大 可 能 的 整数 小 数 部 分 (232-1) 重新 
计算 一 通 。 


21.6 ”修改 mcast_set_if 的 实现 中 对 于 IPv4 版 本 的 操作 ， 让 程序 记 
住 已 经 获取 其 IP 地 址 的 每 个 接口 的 名 字 ， 以 免 为 这 些 接 口 再 次 调 
用 ioct1。 
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Q 原 书 中 给 出 的 IPv4 的 所 有 多 播 地 址 为 224.0.0.0/8， 但 译 者 认为 应 该 是 
224.0.0.004〈 见 21.2 节 ) 。224.0.0.0/8 仅 仅 是 其 中 的 链 路 局 部 多 播 地 址 的 
一 个 超 集 。 译 者 注 





第 22 音 ”高 级 UDP 套 接 字 编程 


22.1 概述 


本 章 汇集 了 影响 应 用 程序 使 用 UDP 套 接 字 的 多 个 论题 。 首 先是 确定 
茶 个 外 来 UDP 数 据 报 的 目的 地 址 及 其 接收 接口 (也 就 是 到 达 接 口 )， 
为 绑 定 东 个 UDP 问 口 和 通 配 地 址 的 一 个 套 接 字 能 够 在 任何 接口 上 接收 单 
播 、 广 播 和 多 播 数据 报 。 


TCP 是 一 个 字 节 流 协议 ， 又 使 用 靖 动 窗口 ， 因 此 没有 诸如 记录 边界 
或 发 送 者 数据 发 送 能 力 超过 接收 者 数据 接收 能 力 之 类 的 事情 。 然 而 对 于 
UDP 而 言 ， 每 个 输入 操作 对 应 一 个 UDP 数据 报 〈 一 个 记录 ) ， 因 此 当 收 
取 的 数据 报 大 于 应 用 进程 的 输入 绥 冲 区 时 就 有 如 何 处 理 的 问题 。 


UDP 是 不 可 靠 的 协议 ， 不 过 有 些 应 用 程序 确实 有 理由 使 用 UDP 而 不 
使 用 TCP。 我 们 将 讨论 影响 何 时 用 UDP 代 丛 TCP 的 硅 干 因素 。 在 这 些 
UDP 应 用 程序 中 ， 我 们 必须 包含 一 些 特性 以 弥补 UDP 的 不 可 靠 性 ， 超 时 
和 重 传 《 用 于 处 理 丢 失 的 数据 报 ) 、 序 列 号 〈 用 于 匹配 应 答 与 请 求 ) 。 
我 们 将 开发 一 组 可 在 UDP 应 用 程序 中 调用 的 函数 以 处 理 这 些 细 市 。 


如 果实 现 不 支持 IP_RECVDSTADDR 套 接 字 选项 ， 那 么 确定 外 来 UDP 数 
据 报 目的 IP 地 址 的 方法 之 一 是 捆绑 所 有 的 接口 地 址 并 使 用 select。 


多 数 UDP 服 务 串 程序 是 达 代 运行 的 ， 不 过 有 些 应 用 系统 在 客户 和 服 
务 右 之 间 交 换 多 个 UDP 数 据 报 ， 因 而 需要 菜 种 形式 的 并 发 。TFTP 是 一 
ue eR 我 们 将 讨论 有 inetd 参 与 和 无 inetd 参 与 这 两 种 情况 下 如 
可 做 到 这 些 。 
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最 后 的 论题 是 可 作为 每 个 IPv6 数 据 报 的 辅助 数据 指定 的 特定 于 分 组 
的 信息 : 源 耻 地址 、 发 送 接口 、 外 出 跳 限 和 下 一 路 地 址 。 可 随 每 个 IPv6 
数据 报 返 回 的 类 似 信息 还 有 : 目的 人 P 地 址 、 接 收 接口 和 接收 跳 限 。 








22.2 ”接收 标志 、 日 的 IP 地 址 和 接口 — 


历史 上 sendmsg 和 recvmsg 一 直 只 用 于 通过 Unix 域 套 接 字 传递 描述 
ISTRI E a 然而 由 于 以 下 两 个 原因 ， 这 
两 个 函数 的 使 用 情况 正在 不 断 改 观 。 


(1) 随 4.3BSD Reno 加 到 msghdr 结 构 的 msg_flags 成 员 返 回 标志 给 应 用 
进程 。 我 们 已 在 图 14-7 中 汇总 了 这 些 标志 。 


(2 ”辅助 数据 正 被 用 于 在 应 用 进程 和 内 核 之 间 传 递 越 来 越 多 的 信 
上 县。 我 们 将 在 第 27 章 看 到 IPv6 延 续 了 这 种 趋势 。 


作为 recvmsg 的 一 个 例子 ， 我 们 将 编写 一 个 名 为 recvfrom_flags 的 函 
数 ， 它 类 似 recvfrom 不 过 十 还 返回 : 





e 所 返回 的 msg_flags 值 ; 
E eden 通过 IP_RECVDSTADDR 套 接 字 选项 获 


"T m 
WO. 

















为 了 返回 最 后 两 项 ， 我 们 在 unp.h 头 文件 中 定义 如 下 结构 。 


struct unp in pktinfo ( 
struct in addr ipi addr; /* destination IPv4 address */ 
int ipi ifindex; /* received interface index */ 


ti 





我 们 特意 选取 该 结构 及 其 成 员 的 名 字 ， 使 得 它们 类 似 于 IPv6 情 形 为 
IPv6 套 接 字 返回 同样 两 项 的 in6_pktinfo 结 构 (22.877) 。 我 们 的 
| ou Di n e 
数 ， 如 果 该 指针 不 为 空 ， 本 函数 就 通过 该 指针 所 指 结构 返回 信息 。 


有 关 这 个 结构 的 一 个 设计 问题 是 : 如 果 IP_RECVDSTADDR 信 息 不 可 得 
(也 就 是 说 实现 不 支持 这 个 套 接 字 选 项 ) ， 那 么 返回 什么 。 接 口 索 引 容 
易 处 理 ， 因 为 值 0 可 以 指示 索引 不 可 知 。 然 而 IP 地 址 的 所 有 32 位 值 都 是 


有 效 的 。 我 们 选择 这 么 做 : 当 实 际 值 不 可 得 时 返回 一 个 全 0 值 C0) 作 
为 目的 地 址 。 尽 管 它 是 一 个 有 效 耻 地址， 却 从 不 允许 作为 目的 卫 地 址 
(RFC 1122 [Braden 1989] ) ; 它 只 有 作为 源 卫 地 址 才 有 效 ， 而 且 必 须 
是 在 主机 正在 引导 ， 从 而 还 不 知道 自己 的 人 P 地 址 的 时 候 。 
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不 幸 的 是 ， 源 自 Berkeley 的 内 核 接受 目的 地 址 为 0.0.0.0 的 卫 数 据 报 
CTCPv2 第 218~219 页 ) 。 这 些 数 据 报 是 由 源 目 4.2BSD 的 内 核 产 生 的 作 
废 了 的 广播 数据 报 。 


我 们 在 图 22-1 中 给 出 recvfrom_flags 函 数 的 前 半 部 分 。 该 函数 意 在 
用 于 UDP 套 接 字 。 


edvio/recyfromflags.c 

1 finclude "ungp.h" 
2 #include <cye/param, h» /* @LIGN wacro tor CMSS NXTHCR() macro */ 
3 ssize_t 
4 recvtrom_flags(int fd, void “str, size t nbytes, int *ilagsp. 
$ SA *ca, cocklen 上 *ealenptr, ctruct wp in pktinfo *ckzp) 
6 | 

struct megqndr req; 
& struct iovsc icv[1]; 
9 ssize t n: 
10 #ifdef HAVE MSGHDR MSG CONTRCL 
11 struct cusghdr  *cmp-r: 
12 union ( 
15 struct cms qhd> cm; 
14 char control [CMSS_SPACE (aiseof (struct in_addr!) + 
15 CMSC_SPACE |sizeot (struct urp :r cktinto)!]: 
16 ] eontrol un; 
17 msg.msc control = control un.control; 
18 msg.msc coztrollen = sizeof(control_un.contrsl), 
19 masg.msc flags = 0; 
20 £cloc 
21 bszcro(&msg, 3izcotf (mag) ); /* make certain msg accrightslen = 0 */ 
22 #endit 
23 msg.msc rave - sa; 
24 msg.msc ramelen = *salenptr; 
25 iov[O].iov base = ptr; 
26 iow[O].iov _cn = nbytes; 
27 meg.mec iov = iov; 
28 msg.msc iov.aen - 1; 
29 if ( (r. = recevwsaiEd, &wsz, *flaqspt) < C) 
30 return (n) ; 
31 *salenptr = rsg.wsg namelen; /* pass back -ssclts */ 
32 if (pktp) 
35 bzercipkzp, siscof struct unp in pktinfo)); /* 0.0.0.0, i/£ = 0 */ 


edviocrecyfromflags.c 
图 22-1 recvfrom flags: 调用 recvmsg 
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包含 文件 
1-2 宏 cMSsG_NXTHDR 的 使 用 需要 包含 头 文件 <sys/param.h>。 
函数 参数 


3-5 ”本 函数 的 参数 类 似 recvfrom， 不 过 第 四 个 参数 现在 是 指 问 某 
个 整数 标志 的 一 个 指针 (我 们 可 由 此 返回 由 recvmsg 返 回 的 标志 ) ， 第 
七 个 参数 则 是 新 的 : 它 是 指向 某 个 in_pktinfo 结 构 的 一 个 指针 ， 本 函数 
由 此 返回 所 接收 数据 报 的 目的 IPv4 地 址 和 它 的 接收 接口 索引 。 


实现 差异 


10-22 ”在 处 理 msghdr 结 构 和 各 种 MsG_xxx 和 党 值 时 ， 我 们 会 遇 到 许多 
不 同 实现 的 差异 。 我 们 处 理 这 些 差异 的 手段 是 使 用 C 的 条 件 包 含 特性 
(#ifdef) 。 如 果 本 实现 文 持 msg_control 成 员 ， 那 就 分 配 空间 以 便 存放 
将 由 套 接 字 选项 IP_RECVDSTADDR 和 IP_RECVIF 返 回 的 值 ， 并 且 初 始 化 适当 
的 成 员 。 


填写 msghdr 结 构 并 调用 recvmsg 





23~33 填写 一 个 msghdr 结 构 并 调用 recvmsg。 msg_namelen 和 
msg_flags 这 两 个 成 员 的 值 必须 传递 回调 用 者 ; 它们 是 值 一 结果 参数 。 
我 们 还 初始 化 调用 者 的 in_pktinfo 结 构 ， 置 IP 地 址 为 .0， 置 接口 索引 为 
0. 


图 22-2 给 出 了 本 函数 的 后 半 部 分 。 


odvio/recyfronflags.c 





24 #ifadef HAVE_MSGHDR_MSG_CONTROL 


25 *t.aqdcp = 0; /* pacc back results */ 
36 return in); 

37 #alse 

38 FELagop = moc.moc_tlaqo; /* pass back resulto */ 
39 if (msg.msg controllen < sizeof(scrucz cmsghdr) | 

40 imeg.meq flags & MSG_CTRUNC) || pkrp == NULL) 

a+ returnín); 

42 fcr icmptr ~ CMSG FIRSTHOR (meg); omprr != NULL; 

43 cupt- = CMSG_ NXTHDR(Smesg, oat r)) [ 

44 #ifcdef 1P RECUDSTADUE 

45 if (cmptr-scmsg level == IPFEOTO IP && 

46 cmpl r-3Cmwg ype == TP_RECVNSTADNR) { 

a7 mencpy(épktp-sipi addr, CMSG IATA (cmptr), 

as sizacf {struct in_addr) hs 

49 cod imer 

50 

Si #endif 

52 &ifüel TP_RRCVTF 

53 if (cmptr-»cmsg level == IPFROTO IP && cmp-zr-»amsg type == IP RzCVIF)[ 
54 struct scckadd- dl *sdl; 

£5 sdl s (struc sockaddr d +) (NSR DATA (cp-r! ; 
56 pktp-»ipi ifindex - sil-»sdl index; 

57 cortinuc; 

58 

t9 #andif 

EU err quit ("unknown ancillary data, ler = &d, level = $d, typs = td", 
6i. cuptr-*cnsg len, cmptr->cmsg level, crp-r-»cmsj tvpe); 
£2 } 

€3 relurnin); 

€4 #endif /* HAVE MSCHDR MSG CONTROL */ 

ES } 


odviovrecrfromflags.c 


[22-2 recvfrom flagsPAZ&: 返回 标志 和 目的 地 址 


34-37 “如果 本 实现 不 文 持 msg_control 成 员 ， 那 就 把 待 返回 标志 设 
置 为 0 并 返回 。 本 函数 其 余部 分 处 理 msg_control 信 息 。 


如 果 没 有 控制 信息 则 返 

38-41 ”返回 msg_flags 成 员 HB AR Je RC EAB ATE ZZ UPE 
其 返回 到 调用 者 : (a) 没有 控制 信息 ， O) Tub AOE, Co) 
调用 者 不 想 返 回 一 | in_pktinfo 结 构 。 
处 理 辅助 数据 


42-43 ”使 用 宏 cMsG_FIRSTHDR 和 CMSsG_NXTHDR 处 理 任 意 数 目的 辅助 数 
据 对 象 。 


处 理 TP_RECVDSTADDR 


44-51 如果 目的 耳 地址 作为 控制 信息 返回 《图 14-9) ， 那 就 把 它 返 
回 给 调用 者 。 


处 理 IP_RECVIF 


52-59 如果 接收 接口 的 索引 作为 控制 信息 返回 ， 那 就 把 它 返 回 给 
调用 者 。 图 22-3 展 示 了 由 recvmsg 返 回 的 本 辅助 数据 对 象 的 内 容 。 





cmsghar{} 
cmsg len 


长 度 | 地 址 询 。 索引 
类 型 | 名 字 | 地 址 | 选择 符 






20 
IPPROTO IP 
IP RECVIF 
8,AF LINK 










sockaddr_dl1{} 






po 











[22-3 ”IP_RECVIF 返 回 的 辅助 数据 对 象 
590~591 


回顾 图 18-1 中 的 数据 链 路 套 接 字 地 址 结构 。 在 图 22-3 所 示 的 辅助 数 
据 对 象 中 返回 的 数据 正 是 这 种 结构 之 一 ， 不 过 其 中 3 个 长 度 成 员 《〈 名 字 
长 度 、 地 址 长 度 和 选择 符 长 度 ) 都 是 0。 因 此 这 些 长 度 成 员 不 必 后 跟 任 
何 数据 ， 整 个 结构 的 长 度 应 该 是 8 字 节 ， 而 不 是 图 18-1 所 示 的 20 字 节 。 
我 们 返回 的 信息 是 接口 索引 。 


例子 : 输出 目的 IP 地 址 和 数据 报 截断 标志 


为 了 测试 recvfrom_flags 函 数 ， 我 们 把 dg_echo 函 数 〈 图 8-4) WH 
调用 recvfrom_flags 而 不 是 recvfrom。 图 22-4 给 出 了 这 个 新 版 本 的 
dg. echorK Zi. 
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couvieeda echo c 
fiuclude "unpifi.lh" 


funde= MAXLINE 
fdefine MAXLINE 20 /* to Bee datacram truncation */ 


void 
dg echc(int secktd, SA *»cliaddr, socklen t clilen) 
ant tlags; 
conet inz cn = 1; 
sockien = len; 
ssize t n; 
ghar mesg[M^XLINE], str[INETé ADDRSTRLEK), ifname[IFNAMSIZ]; 
struct in_addr in_zers; 
struct urp -n pktinfo rktinfo; 


fifdct IP RECVDSTALDR 
it (setsockopt iseckta, TFPRON) TP, I? RECVDETADOP, &on, sinention)! « ^! 
arr “et |" setsockept ot T? RECVDETADDR"| ; 
fendir 
#ifdel IP RECVIF 
if (setsockoptiscckfd, IPPROTO IP, IP RECVIS, &ou, sizeof(cu)) « 0j 
err reti'setseockop- of I>_RECVIF"}; 
fendit 
D2sero;&lr sero, eizeof(etruce in_addrt!; /* all 9 Ipvi address */ 


for (a3 11 
lan « clilen; 
flags = n; 
n = Recvfrom fl age(sockfé, mesc, MAXLTNR, &flags, 
peliecds, &len. &pbktinfo); 
priiutLz2("Sd-bvbie dalapan fion $5", n, Soch stcpl(psliakh, len)); 
if (remewm»(üpktinfo.lpi addr, iin zero, sizeo?(in zero}) !- 0) 
pxintfi", to te", Inet ntop(^F INET, &pktinfo.ipi addr, 
etr, cizeofictr])): 
if (pktinfo,ip: itindex > 0) 
prinrfi", re-v i/f = ts", 
I* indextenawe(pkt:into.*pi itindex, iftname) ) ; 
ifdef MSS TRUN^ 
if (legs & MSS TAC) 
pziutf(* (dategran truncatec! "); 
fendit 
fifdet MSG CTRUNC 
if (2lage & MSG CTRUMC) 
Printfi"* feontrel info truzcated)"!; 
$endit 
#ifde= M33 ECAST 
if (lags & MSG 3CAG7) 
Printéi" (brosdcast)"!; 
fundit 
flfd«l MSG MCAST 
if (lage & MSG MCAST) 
printfi*' (mulcícast)"!: 
fendi? 
printana"); 


Senáto (s2424, wecq, n, 0, pcliaódr, len}; 
advioilgecdiakir c 


图 22-4 调用 recvfrom_flags 函 数 的 dg_echo 函 数 


修改 MAXLINE 





2-3 ”去掉 出 现在 unp.h 头 文件 中 已 有 的 MAxLINE 定 义 ， 把 它 重 新 定义 
为 20。 我 们 这 样 做 是 为 了 碍 看 当 收 到 一 个 比 我 们 传递 给 输入 函数 〈 本 例 
中 是 recvmsg) 的 缓冲 区 更 大 的 UDP 数据 报时 会 发 生 什 么 。 
设置 IP_RECVDSTADDR 和 IP_RECVIF 套 接 字 选项 


14~21 ”如 果 IP_RECVDSTADDR 套 接 字 选 项 有 定义 ， 那 就 开启 它 。 同 样 
地 如 果 IP_RECVIF 套 接 字 选项 有 定义 ， 那 就 开启 它 。 


读 入 数据 报 ， 输 出 源 卫 地址 和 端口 号 


24-28 ”调用 recvfrom_ _flags 谈 入 数据 报 。 调用 sock_ntop 把 所 收取 
服务 器 应 答 的 源 耻 地 址 和 端口 号 转换 为 表达 格式 ， 再 显示 输出 。 


输出 目的 IP 地 址 


29-31 ”如 果 返 回 的 IP 地 址 不 是 0， 那 就 调用 inet_ntop 把 它 转 换 为 表 
达 格 式 并 显示 。 
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输出 接收 接口 的 名 字 


32-34 ”如 果 返 回 的 接口 索引 不 是 0， 那 就 调用 if_indextoname 获 取 
接口 名 字 并 显示 。 


测试 各 种 标志 
35-51 ”我 们 接着 为 外 测试 4 个 标志 ， 如 果 其 中 任何 一 个 是 打开 的 就 


TINE E. 
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22.3 ZW FRE T 


在 源 目 BSD 的 系统 上 ， 当 到 达 的 一 个 UDP 数据 报 超过 应 用 进程 提供 
的 绥 冲 区 容量 时 ，recvmsg 在 其 nsghdr 结 构 〈 图 14-7) 的 msg_flags 成 员 
上 设置 MsG_TRUNC 标 志 。 上 所 有 文 持 msghdr 结 构 及 其 msg_flags 成 员 的 源 自 
Berkeley 的 实现 都 提供 这 种 通知 。 


MSG_TRUNC 是 必须 从 内 核 返 回 到 进程 的 标志 之 一 。 我 们 已 在 14.3 节 提 
到 过 ， 函 数 recv 和 recvfrom 存 在 的 一 个 设计 问题 是 它们 的 jags 参 数 是 一 
个 整数 ， 因 而 只 允许 从 进程 到 内 核 传 递 标 志 ， 而 不 能 反方 向 返回 标志 。 


不 笠 的 是 ， 并 非 所 有 实现 都 以 这 种 方式 处 理 超 过 预期 长 度 的 UDP 数 
据 报 。 这 里 存在 以 下 3 个 可 能 的 情形 。 


(1) 丢弃 超 出 部 分 的 字 节 并 同 应 用 进程 返回 Ms6_TRUNC 标 志 。 本 人 处理 
方式 要 求 应 用 进程 调用 recvmsg 以 接收 这 个 标志 。 


(2) 丢弃 超出 部 分 的 字 节 但 不 告知 应 用 进程 这 个 事实 。 
| (3) 保留 超出 部 分 的 字 节 并 在 同一 套 接 字 上 后 续 的 读 操 作 中 返回 它 
I]. 

POSIX 采 纳 第 一 种 处 理 行为 ， 丢弃 超出 部 分 的 字 节 并 设 
置 MsG_TRUNC 标 志 。 早 期 的 SVR4 版 本 展现 的 是 第 三 种 类 型 的 行为 。 


既然 不 同 的 实现 在 处 理 超过 应 用 进程 接收 缓冲 区 大 小 的 数据 报时 存 
在 上 述 差 寞 ， 检 测 本 问题 的 一 个 有 效 方 法 就 是 ， 总 是 分 配 比 应 用 进程 预 
期 接收 的 最 大 数据 报 还 多 一 个 字 节 的 应 用 进程 缓冲 区 。 如 果 收 到 长 度 等 
于 该 缓冲 区 的 数据 报 ， 那 就 认定 它 是 一 个 过 长 数据 报 。 








224 何 时 用 UDP 代 蔡 TCP 


我 们 已 在 2.3 节 和 2.4 节 讲述 过 UDP 和 TCP 的 主要 区 别 。 既 然 TCP 是 可 
靠 的 而 UDP 却 不 是 ， 有 竺 回答 的 问题 就 是 : 何 时 我 们 应 该 用 UDP 代 蔡 
TCP? 为 什么 ? 我 们 首先 列举 UDP 的 优势 。 





。 正如 图 20-1 所 示 ，UDP 文 持 广 播 和 多 播 。 事 实 上 如 果 应 用 程序 使 用 
广播 或 多 播 ， 那 就 必须 使 用 UDP。 我 们 已 在 第 20 章 和 第 21 章 讨论 过 
这 两 种 寻 址 模式 。 
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UDP 没有 连接 建立 和 拆除 。 相 对 于 图 2-5，UDP 只 需要 两 个 分 组 就 
能 交换 一 个 请 求 和 一 个 应 答 〈 假 设 两 者 的 长 度 都 小 于 两 个 端 系 统 之 
间 的 最 小 MITU) 。TCP 却 需要 大 约 20 个 分 组 ， 这 里 假设 为 每 次 请 求 
一 应 答 交 换 建 立 一 个 新 的 TCP 连 接 。 


获得 应 答 所 需 的 分 组 往返 次 数 在 这 种 分 组 数目 分 析 中 也 很 重要 。 正 
如 TCPVv3 附 录 A 所 述 ， 从 请 求 到 应 答 的 分 组 往返 次 数 在 延迟 超过 带宽 情 
形 下 变 得 非常 重要 。 那 段 文 字 表 明 ， 束 单个 UDP 请 求 一 应 答 交 换 而 言 的 
最 小 事务 处 理 时 间 (transaction time) 为 RTT+SPT， 其 中 RTT 表 示 客 户 
与 服务 器 之 间 的 往返 时 间 (round-trip time) ，SPT 则 表示 客户 请 求 的 服 
务 器 处 理 时 间 (server processing time) 。 然 而 就 TCP 而 言 ， 如 果 同 样 的 
请 求 一 应 答 交 换 用 到 一 个 新 的 TCP 连 接 ， 那 么 最 小 事务 处 理 时 间 将 是 
2xRTT+SPT， 比 UDP 时 间 多 一 个 RTT。 


关于 第 二 扩 我 们 应 该 清楚 : 如 条 单个 TCP 连 接 用 于 多 个 请 求 一 应 答 
交换 ， 那 么 连接 的 建立 和 拆除 开销 就 由 所 有 的 请 求 和 应 答 分 担 ， 这 样 的 
设计 通常 比 为 每 个 请 求 一 应 管 交 换 使 用 新 连接 要 好 。 尺 管 如 此 ， 有 些 应 
用 系统 还 是 为 每 个 请 求 一 应 答 交 换 使 用 一 个 新 的 TCP 连 接 (如 较 早 版 本 
的 HITP) ， 而 有 上 坚 应 用 系统 则 在 客户 和 服务 顺 交 换 一 个 请 求 一 应 答 
后 ， 可 能 数 小 时 或 数 天 不 再 通信 (如 DNS) 。 


我 们 接着 列 出 UDP 无 法 提供 的 TCP 特 性 ， 这 意味 着 如 果 这 些 特性 对 


于 有 具体 应 用 系统 是 必需 的 ， 那 么 其 应 用 程序 必须 目 行 提 供 它 们 。 需 注意 
的 是 ， 不 是 所 有 应 用 程序 都 需要 TCP 的 所 有 这 些 特性 。 举 例 来 说 ， 对 于 
实时 首 频 应 用 程序 而 言 ， 如 果 接 收 进程 能 够 通过 插值 弥补 遗失 数据 ， 那 
么 丢失 的 分 节 也 许 不 必 重 传 。 同 样 ， 对 于 简单 的 请 求 一 应 答 事务 处 理 而 
言 ， 如 果 两 端 事 先 协定 最 大 的 请 求 和 应 答 大 小 ， 那 么 也 许 不 需要 窗口 式 


流量 控制 。 


e 正面 确认 ， 丢 失 分 组 重 传 ， 重 复 分 组 检测 ， 给 和 被 网 络 打 乱 次 序 的 分 
组 排序 。TCP 确 认 所 有 数据 ， 以 便 检 测 出 丢失 的 分 组 。 这 些 特性 的 
实现 要 求 每 个 TCP 数 据 分 节 都 包含 一 个 能 被 对 端 确 认 的 序列 号 。 这 
些 特性 还 要 求 TCP 为 每 个 连接 估算 重 传 超时 值 ， 该 值 应 随 厦 两 个 端 
系统 之 间 分 组 流通 的 变化 持续 更 新 。 

窗口 式 流量 控制 。 接 收 赣 TCP 告知 友 送 端 自 己 已 为 接收 数据 分 配 了 
多 大 的 缓冲 区 空间 ， 发 送 端 不 能 用 送 超过 这 个 大 小 的 数据 。 也 就 是 
说 ， 发 送 兽 的 未 确认 数据 量 不 能 超过 接收 站 告知 的 窗口 。 
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慢 局 动 和 拥塞 避免 。 这 是 由 发 送 端 实 施 的 一 种 流量 控制 形式 ， 它 通 
过 检测 当前 的 网 络 容 量 来 应 对 阵 发 的 拥塞 。 当 前 所 有 的 TCP 必 须 文 
持 这 两 个 特性 ， 而 且 我 们 根据 20 世 纪 80 年 代 后 期 这 些 算法 实现 之 前 
的 经 验 知 道 ， 那 些 面 临 拥塞 而 不 “后 退 ”(back off〉 的 协议 只 会 导致 
拥塞 变 得 更 糟 灯 (如 [Jacobson 1988] ) . 


作为 总 结 ， 我 们 可 以 陈述 如 下 建议 。 





对 于 广播 或 多 播 应 用 程序 必须 使 用 UDP。 任 何 形 式 的 错误 控制 必须 
加 到 客户 和 服务 器 程序 之 中 ， 不 过 应 用 系统 往往 是 在 可 以 接受 一 定 
量 〈 假 设 是 少量 ) 的 错误 的 前 提 下 《如 音频 或 视频 的 分 组 丢失 ) 使 
用 广播 和 多 播 。 要 求 可 靠 递 送 的 多 播 应 用 系统 〈 如 多 播 文件 传输 ) 
确 非 没有 ， 不 过 我 们 必须 衡量 使 用 多 播 的 性 能 收益 〈 人 发 送 单个 分 组 
到 N 个 目的 地 ， 对 比 路 N 个 TCP 连 接 发 送 该 分 组 的 N 个 副本 ) Ze AM 
重 于 为 提供 可 靠 通信 而 要 求 增添 到 应 用 程序 中 的 复杂 性 。 

对 于 简单 的 请 求 一 应 答应 用 程序 可 以 使 用 UDP， 不 过 错误 检测 功能 
必须 加 到 应 用 程序 内 部 。 错 误 检 测 至 少 涉及 确认 、 超 时 和 重 传 。 流 








量 控 制 对 于 合理 大 小 的 请 求 和 应 答 往往 不 成 问题 。 我 们 将 在 22.5 市 
给 出 的 UDP 应 用 程序 中 提供 这 些 特性 的 一 个 例子 。 这 里 需要 考虑 的 
因素 包括 客户 和 服务 絮 通 信 的 频 度 (可 舍 在 相继 的 通信 之 间 保 持 所 
用 的 TCP 连 接 ? ) 以 及 所 交换 的 数据 量 (如 果 通 常 需 要 多 个 分 组 ， 
那么 TCP 连 接 的 建立 和 拆除 开销 将 变 得 不 大 重要 ) 。 

对 于 海量 数据 传输 《如 文件 传输 ) 不 应 该 使 用 UDP。 因 为 这 么 做 除 
了 上 一 点 要 求 的 特性 外 ， 还 要 求 把 窗口 式 流量 控制 、 拥 宏 避 免 和 慢 
尼 动 这 些 特性 也 加 到 应 用 程序 中 ， 意 味 着 我 们 是 在 应 用 程序 中 再 造 
TCP。 我 们 应 该 让 厂商 来 关注 更 好 的 TCP 性 能 ， 而 自己 应 该 致力 于 
提升 应 用 程序 本 身 。 


这 些 规则 存在 例外 ， 尤 其 是 在 现 有 的 应 用 程序 中 。 举 例 来 说 ， 
TFTP 就 用 UDP 传送 海量 数据 。TEFTP 选 用 UDP 的 原因 在 于 ， 在 系统 自 举 
引导 代码 中 使 用 UDP 比 使 用 TCP 易 于 实现 〈 如 TCPv2 中 使 用 UDP 的 C 代 
码 约 为 800 行 ， 而 使 用 TCP 则 约 为 4500 行 )， 而 且 TFTP 只 用 于 在 局 域 网 
上 引导 系统 ， 而 不 是 跨 广域网 传送 海量 数据 。 不 过 这 样 一 来 就 要 求 
TFTP 自 含 用 于 确认 的 序列 号 字段， 并 具备 超时 和 重 传 能 
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NFS 是 这 些 规则 的 另 一 个 例外 : 它 也 用 UDP 传 送 海量 数据 (尽管 有 
人 可 能 声称 它 实际 上 是 一 个 请 求 一 应 答应 用 系统 ， 不 过 使 用 较 大 的 请 求 
和 应 答 而 已 ) 。 这 样 的 选择 部 分 出 于 历史 原因 ， 因 为 在 20 世 纪 80 年 代 中 
期 设计 NES 的 时 候 ，UDP 的 实现 要 比 TCP 的 快 ， 而 且 NEFS 仅 仅 用 于 局 域 
网 ， 那 里 分 组 丢失 率 往往 比 在 广域网 上 少 几 个 数量 级 。 然 而 随 着 NFS 从 
20 世 纪 90 年 代 早 期 开始 被 用 于 路 广域网 范围 ， 并 且 TCP 的 实现 在 海量 数 
据 传 送 性 能 上 开始 超过 UDP 的 实现 ，NFS 第 3 版 被 设计 成 支持 TCP， 大 多 
数 厂商 现 已 改 为 同时 在 UDP 和 TCP 上 提供 NFS。 同 样 的 理由 〈20 世 纪 80 
年 代 中 期 UDP 要 比 TCP 快 且 局 域 网 上 的 使 用 远 远 超过 广域网 ) 导致 DCE 
远程 过 程 调用 (remote procedure call, RPC) 的 前 身 软件 包 (Apollo 
NCS 软 件 包 ) 也 选择 UDP 而 不 是 TCP， 不 过 如 今 的 实现 同时 支持 UDP 和 
TCP. 











既然 如 今 民 好 的 TCP 实 现 能 够 充分 发 挥 网 络 的 带宽 容量 ， 而 且 越 来 
越 少 的 应 用 系统 设计 人 员 愿 意 在 自己 的 UDP 应 用 中 再 造 TCP， 这 些 事实 
可 能 诱 使 我 们 说 : 相 比 TCP，UDP 的 用 途 在 递减 。 然 而 预期 中 下 一 个 十 
年 多 媒体 应 用 领域 的 增长 将 会 促成 UDP 使 用 的 增加 ， 因 为 多 媒体 通常 意 
味 着 需要 UDP 的 多 播 。 





22.55 给 UDP 应 用 增加 可 靠 性 


正如 上 一 节 所 所， 如 果 想 要 让 请 求 一 应 答 式 应 用 程序 使 用 UDP， 那 
么 必须 在 客户 程序 中 增加 以 下 两 个 特性 。 


(1) 超时 和 重 传 : 用 于 处 理 丢 失 的 数据 报 。 
(2) 序列 号 : 供 客户 验证 一 个 应 答 是 否 匹配 相应 的 请 求 。 


这 两 个 特性 是 使 用 简单 的 请 求 一 应 答 范 式 的 大 多 数 现 有 UDP 应 用 程 
序 的 一 部 分 ， 如 DNS 解析 器 、SNMP 代 理 、TFTP 和 RPC。 我 们 不 打算 使 
eee Were eae eee ne 
程序 。 


根据 其 定义 ， 数 据 报 是 不 可 靠 的 ， 因 此 我 们 故意 不 称 如 此 增加 的 可 
靠 性 为 "可 靠 的 数据 报 服务 ”。 事 实 上 "可靠 的 数据 报 ” 是 一 个 目 相 和 刻 盾 的 
说 法 。 我 们 将 展示 的 是 在 不 可 靠 的 数据 报 服 务 (UDP) 之 上 加 入 可 靠 性 
的 一 个 应 用 程序 。 


增加 序列 号 比较 简单 。 客 户 为 每 个 请 求 冠 以 一 个 序列 号 ， 服 务 器 必 
须 在 返 送 给 客户 的 应 答 中 回 射 这 个 序列 写 。 这 样 客 尸 束 可 以 验证 茶 个 给 
定 的 应 答 是 否 匹配 早先 发 出 的 请 求 。 


处 理 超时 和 重 传 的 老式 方法 是 先 发 送 一 个 请 求 并 等 待 N 秒 钟 。 如 果 
期 间 没 有 收 到 应 答 ， 那 就 重新 发 送 同 一 个 请 求 并 再 等 待 N 秒 钟 。 如 此 发 
生 一 定 次 数 后 放弃 发 送 。 这 是 线性 重 传 定 时 器 的 一 个 例子 。 (TCPv1 的 
图 6-8 给 出 了 使 用 这 个 技巧 的 TFTP 客 户 程序 的 一 个 例子 。 许 多 TFTP 客 户 
程序 仍 使 用 这 个 方法 。) 


这 个 方法 的 问题 在 于 数据 报 在 网 络 上 的 往返 时 间 可 以 从 局 域 网 的 远 
不 到 一 秒 钟 变化 到 广域网 的 好 几 秒 钟 。 影 响 往 返 时 间 CRTT) 的 因素 包 
括 距 离 、 网 络 速 度 和 拥 蹇 。 另 外 ， 客 户 和 服务 需 之 间 的 RIT 会 因 网 络 条 
件 的 变化 而 随 着 时 间 迅 速 变 化 。 我 们 必须 采用 一 个 把 实测 到 的 RTT 及 其 
随时 间 的 变化 考虑 在 内 的 超时 和 重 传 算 法 。 这 个 领域 已 有 不 少 研究 工 
作 ， 大 多 数 涉 及 TCP， 不 过 同样 的 想法 适用 于 任何 网 络 应 用 。 
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我 们 想 要 计算 用 于 发 送 每 个 分 组 的 重 传 超时 (retransmission 
timeout, RTO) 。 为 此 先 测量 每 个 分 组 的 实际 往返 时 间 RTT。 每 测 得 一 
个 RTT， 我 们 就 更 新 2 个 统计 估算 因子 : srtt 是 平滑 化 RTT 估 算 因 子 

(smoothed RTT estimator) ，rttvar 是 平滑 化 平均 偏差 估算 因子 

(smoothed mean deviation estimator) 。 后 者 只 是 标准 偏差 的 一 个 较 好 
近似 ， 不 过 由 于 不 涉及 开 方 而 易于 计算 。 有 了 这 2 个 估算 因子 ， 待 用 的 
RTO 就 是 srtt 加 上 4 倍 rttvar。 [Jacobson 1988] 给 出 了 这 些 计算 的 所 有 细 
节 ， 我 们 可 以 用 以 下 4 个 方程 式 加 以 总 结 。 














delta = 测 得 RTT - srtt 
srtt — srtt + g x delta 

rttvar — rttvar + h ({delta| - rttvar ) 
RTO = srtt + 4 x rttvar 


delta 是 测 得 RTT 和 当前 平滑 化 RTT 佑 算 因 子 (srtt) 之 差 。g 是 施加 
在 RTT 估 算 因 子 上 的 增益 ， 值 为 /8。h 是 施加 在 平均 偏差 估算 因子 上 的 
增益 ， 值 为 1/4。 


RTO 计 算 中 的 两 个 增益 和 乘 数 4 都 特意 选 为 2 的 指数 ， 这 样 使 用 移 位 
运算 而 不 是 乘除 运算 就 可 以 计算 相关 值 。 事 实 上 TCP 内 核实 现 〈TCPv2 
的 25.7 节 ) 为 了 速度 起 见 通常 使 用 定点 算术 运算 进行 计算 ， 不 过 为 了 简 
便 起 见 ， 我 们 在 本 节 后 续 代 码 中 使 用 浮 点 计算 。 


[Jacobson 1988] 指出 的 另 一 点 是 : 当 重 传 定时 器 期 满 时 ， 必 须 对 
下 一 个 RTO 应 用 某 个 指数 回 退 (exponential backoff) 。 举 例 来 说 ， 如 果 


第 一 个 RTO 是 2 秒 ， 期 间 未 收 到 应 答 ， 那 么 下 一 个 RTO 是 4 秒 。 如 果 仍 未 
收 到 应 答 ， 那 么 再 下 一 个 RTO 是 8 秒 、16 秒 ， 依 次 类 推 。 











Jacobson 的 算法 告诉 我 们 每 次 测 得 一 个 RTT 后 如 何 计算 RTO 以 及 重 
传 时 如 何 增加 RTO。 然 而 当 我 们 不 得 不 重 传 一 个 分 组 并 随后 收 到 一 个 应 
答 时 ， 称 为 “ 重 传 二 义 性 问题 ”(retransmission ambiguity problem) 的 新 
问题 出 现 了 。 图 22-5 展 示 了 章 传 定时 器 期 满 时 可 能 出 现 的 如 下 3 种 情 
形 : 





图 22-5” 重 传 定时 器 期 满 时 的 3 种 情形 








。 请 求 丢 失 了 ; 
。 应 答 丢 失 了 ; 
e RTO 太 小 。 


当 客户 收 到 重 传 过 的 茶 个 请 求 的 一 个 应 答 时 ， 它 不 能 区 分 该 应 答对 
应 哪 一 次 请 求 。 对 于 右 侧 的 例子 ， 该 应 答对 应 初始 的 请 求 ， 对 于 另外 两 
个 例子 ， 该 应 答对 应 重 传 的 请 求 。 


Karn 的 算法 [Karn and Partridge 1987 ] 可 以 解决 重 传 二 义 性 问题 ， 
即 一 旦 收 到 重 传 过 的 某 个 请 求 的 一 个 应 答 ， 就 应 用 以 下 规则 。 


。 即使 测 得 一 个 RTT， 也 不 用 它 更 新 估算 因子 ， 因 为 我 们 不 知道 其 中 
的 应 答对 应 哪 次 重 传 的 请 求 。 

。 既然 应 答 在 重 传 定时 右 期 满 前 到 达 ，“【〔 可 能 指数 回 退 过 的 〉 当 
前 RTO 将 继续 用 于 下 一 个 分 组 。 只 有 当 我 们 收 到 未 重 传 过 的 茶 个 请 
求 的 一 个 应 答 时 ， 我 们 才 更 新 RTT 估 算 因 子 并 重新 计算 RTO。 


在 编写 我 们 的 RTT 函 数 时 采用 Karn 的 算法 并 不 困难 ， 然 而 还 存在 着 
更 为 精妙 的 解决 办 法 。 这 个 办 法 来 自 TCP 用 于 应 对 “长 胖 管 道 ”〈 有 较 高 
带宽 或 有 较 长 RTT， 抑 或 两 者 都 有 的 网 络 ) 的 扩展 ， 见 RFC 
1323 [Jacobson, Braden, and Borman 1992] 。 本 办 法 除了 为 每 个 请 求 冠 
以 一 个 服务 器 必须 回 射 的 序列 号 外 ， 还 为 每 个 请 求 冠 以 一 个 服务 器 同样 
必须 回身 的 时 间 惟 (timestamp) 。 每 次 发 送 一 个 请 求 时 ， 我 们 把 当前 
时 间 保 存在 该 时 间 惟 中 。 当 收 到 一 个 应 答 时 ， 我 们 从 当前 时 间 减 去 由 服 














Fa FESR IE P TBD ST A EN TRI SE RTT 2 BER BET V OK DS — 1 14 EH 
服务 器 回 射 的 时 间 戳 ， 我 们 可 以 如 此 算出 所 收 到 的 每 个 应 答 的 RIT。 采 
用 本 办 法 不 再 有 任何 二 义 性 。 此 外 ， 既 然 服务 器 所 做 的 只 是 回 射 客户 的 
时 间 截 ， 因 此 客户 可 以 给 时 间 戳 使 用 任何 期 望 的 时 间 单 位 ， 而 且 客户 和 
服务 器 根本 不 需要 为 此 拥有 同步 的 时 钟 。 


例子 


我 们 接 下 去 通过 一 个 例子 实现 所 有 上 述 内 容 。 首 先 把 图 8-7 中 的 
UDP 回 射 客户 程 序 的 main 函 数 所 用 的 端口 号 从 sERV_PORT 改 为 7《〈 标 准 回 
WRIA (2-18) . 


图 22-6 是 dg_cl1i 函 数 。 与 图 8-8 相 比 ， 仅 有 的 改动 是 把 sendto 和 
recvfrom 调 用 蔡 换 为 调用 我 们 的 新 函数 dg_send_recv。 











ride chic 
1 tiuclu2e "uup.lh" 
2 ssize t Lg send recv(int. const void *, size_t, void *, size t, 
3 const SA *, socklen t); 
4 void 
5 dq cli (FILE "fp, int sockfd, const SA "pservad^r, socklen t seru sn) 
€ 
7 ssize t a, 
各 char aendline[MAXLINRE., recvline (MAXLINE + 1]; 
S while (Fzets(sendline, MAXLINME, fp) !- NULL) | 
16 n = 2g send recv[sockfd, sendline, strlen‘sendline!, 
11 recvline, MAXLTNE, Ds-rwadlr, servlen); 
12 recvlinefn] = 0; /* mill terminate */ 
13 Bputs;recvline, stdcu-:); 
14 
15 ] 
rit clic 


图 22-6 ”调用 我 们 的 dg_send_recv 函 数 的 dg_clLi 函 数 


在 给 出 dg_send_recv 函 数 和 它 调用 的 RTT 函 数 之 前 ， 我 们 先 通 过 图 
22-7 给 出 如 何 给 一 个 UDP 客户 程序 增加 可 靠 性 的 轮 廊 。 所 有 以 rtt_ 打 头 
的 函数 随后 给 出 。 








static sigjmp but jvpzut; 


Fit 
cignal (SICALRM, siqg alrm]; /* establish siaral handler */ 
rtt newpack'!; /^* initialize rexmt counter to C * 
sendagain: 
&endto(); 
al&rm[rtt start(:); /* set alarm for RTO seccnds */ 
if {sigsetjmpijmpbuf, 1) != 0) { 
if ixrtt_timeout ()) /* double RTO, retransmitted enough? */ 
NOT 
gozo sendagain, /* retransmit */ 
co | 


reovirom(): 
) white ( 序 州 号 诬 误 ) ， 


alarm[0); /* turn off alarm */ 
rtt stop: /* calculate RTT and usdate cstimators */ 
ALARA 


void 
sia alrm(int sisnc! 


eiglongirp(*mpbut, 1); 


} 


图 22-7 RTTEPÁAZIAC REMI AY AL 
598—600 


当 收 到 一 个 其 序列 号 并 非 期 望 值 的 应 答 时 ， 我 们 再 次 调 
用 recvfrom， 但 是 不 重 传 请 求 ， 也 不 重 局 运行 中 的 重 传 定数 嚣 。 注 意 
22-5 右 侧 的 例子 ， 与 重 传 的 那个 请 求 对 应 的 最 后 一 个 应 答 将 在 客户 下 一 
次 友 送 一 个 新 请 求 时 出 现在 套 接 字 接 收 缓冲 区 中 。 它 不 会 引起 问题 ， 
为 客户 会 读 入 这 个 应 答 ， 注 意 到 它 的 序列 号 并 非 期 望 值 ， 于 是 丢弃 它 并 
再 次 调用 recvfrom。 





3&4 TUS Hl sigset jmp #llsiglongjmp cut 4820.5 1 5] VET] EH SIGALRM 
言 号 引起 的 竞争 状态 。 


图 22-8 给 出 了 dg_send_recv 国 数 的 前 半 部 分 。 
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#include "uagprt-.h' 
#include eger jmp. h> 


detine RTT ZERUG 


szetic struct rtt info rttinfo; 
s-atic irt rt-ini- = 0; 
static struct msghdr mszsenc, nagrecv; /* assumed init to 0 */ 
static struct hdr [ 
uint32 t segi /* sequence # */ 
uirti2 t te; /* timestamp wher. sert */ 


| serdhdr, recvhdr; 

Static void sig alrm(int sisne]; 

static siqime_buF jmobuf ; 

ocize t 

dg seni recv(int fd, const void *cutbufz, size t outbytes, 


void *inbuf?, size_t inhytes, 

const SA "deetaddr, socklen t destlen) 
ssize t n: 
sLrubct. invece lowsenl(2), leovrecv 12]; 


if {rttinit == 0} { 
rtt init(&rttinfo); /* first time we're called */ 
rkEbEin:-z s 1; 
rtr d flag = 1; 


) 


sendhdr .seg-«; 

msgsenc.msc name = destadir; 
msgsenc.msc navelen - destien; 
msqsenc.msc iov = ioveend; 

meqcenc.mecz iov.en = 2; 

iovsenc[C].z:zv base - &serdhdr; 
iovsenc[C].izv len = sizeof(stract hd-); 
iovsenc[1].:zv base = cutbuff; 

icwvsenc [1) . av 1 en s cut bytes; 


msgrecv,mszc name ~ NULL; 

msgrecv.usg namelea = 0; 
msgrecv.msg iov = iovrecv; 

msgrecv.msc iovlen = 2: 

iovrecv[Gc].z:2v base - urecvtdr; 
íovrecv[0].i2v len = gizesf (struct hdr); 
iovrecv|1l).z:2v baee = inbuff; 
iovrecv[1].:2v len = inbytes, 


图 22-8 dg send recvPA ZW: 前 半 部 分 


rit/dg send ecVE 


rude send recvc 


1-5 我 们 包含 一 个 新 的 头 文件 unprtt.h， 它 在 图 22-10 中 给 出 ， 其 
中 定义 了 用 于 为 客户 维护 RTT 信 息 的 rtt_info 结 构 。 我 们 声明 一 
个 rtt_info 结 构 变 量 和 许多 其 他 变量 。 


4E X. msghdr Zi #4 fühdr Zi 44] 


6~10 我们 希望 回调 用 者 隐藏 我 们 为 每 个 分 组 冠 以 一 个 序列 号 和 一 
个 时 间 戳 这 一 事实 。 最 简单 的 方法 是 使 用 writev， 作 为 单个 UDP 数据 报 


先 写 出 我 们 的 首部 hdr) ， 再 写 出 调用 者 的 数据 。 回 顾 一 下 ， 我 
们 知道 writev 在 数据 报 套 接 字 上 的 输出 是 单个 数据 报 。 访 方法 既 比 迫使 
调用 者 在 其 缓冲 区 前 部 预 留 供 我 们 使 用 的 空间 来 得 简单 ， 也 比 把 我 们 的 
首部 和 调用 者 的 数据 复制 到 一 个 还 需 分 配 其 至 vie] Av [X rb ELE RR 
个 sendto 来 得 迅速 。 然 而 由 于 我 们 在 使 用 UDP 且 必 须 指定 目的 地 址 ， 因 
此 我 们 必须 使 用 sendmsg 和 recvmsg 的 iovec 能 力 代 奉 sendto 和 recvfrom。 
回顾 14.5 节 ， 我 们 知道 就 辅助 数据 而 言 ， 有 些 系统 定义 的 msghdr 结 构 比 
较 新 ， 较 老 的 系统 定义 的 该 结构 末尾 仍然 是 访问 权限 成 员 。 为 了 避免 因 
插入 用 来 处 理 这 些 差 别 的 村 fdef 而 把 代码 搞 复 杂 ， 我 们 把 2 个 msghdr 结 
构 变 量 声明 为 static 全 局 变量 ， 从 而 按照 C 语 言 规范 迫使 它们 被 初始 化 
为 全 0， 以 后 只 需 简单 地 忽略 这 2 个 吉 构 末尾 没有 用 到 的 成 员 。 


首次 被 调用 时 进行 初始 化 
20-24 ” 当 本 函数 首次 被 调用 时 ， 调 用 rtt_init 隙 数 进行 初始 化 。 
填写 msghdr 结 构 
25-41 ”填写 分 别 用 于 输入 和 输出 的 2 个 msghdr 结 构 。 给 当前 分 组 递 
*: ll: 但 是 直到 发 送 之 前 暂 不 设置 发 送 时 间 惟 “〈 因 为 该 分 组 有 
能 被 重 传 ， 而 每 次 重 传 都 需要 当前 时 间 惟 ) 。 
601—602 


本 函数 的 后 半 部 分 以 及 sig_alrm 信 号 处 理 函 数 在 图 22-9 中 给 出 。 











ritde_send_recy.c 





42 SigualiSIGALRM, sg alru; 

43 rtt newpack(&rttinfo); /* initialize fcr this packet */ 

44 sandagain: 

45 sendhdr.ts - rtt ts/5rttinto;; 

46 Sendmsg(fd, &megsend, 0); 

avy alarm(rrt srart(&rrrinfo)): /* calc cimemic valve » start timer */ 
au it (cigse-jmp(jmzbuf, 1) != o) { 

49 if (rtt_tinweoutlarttinfo] < 0) [ 

50 e-xr rsgí"dg send recv: no response from server, giving up"); 
at rttinit = J; /*^ veinit in case we're called ayain */ 
52 errnc - aTINZDOUT; 

£3 return(-1); 

LT ) 

25 goto ssndagain; 

E6 ] 

57 dc ( 

58 n = Recvrsg!fd, tmsgrecv, 0}; 

59 1 while in < sizeof istrucr hdr) | recvndr.seq |= sendndr. seq): 

E0 alarm(Q!; /* Scop SIGALEM timer */ 

Ci /* celculate & store new RTT estimator values */ 

£2 rrt s-opií&rttinto, rtt tsl&rttirfz) ~ recvhdr.ts); 

63 returmin - sizeof [struct hdr;): /* return size of received datagrem */ 
£4 ^ 


£5 static voic 
£6 sig alrmiirt signo) 


E& siglongjmp!jmpbouf, 1); 


rude send recvc 
图 22-9 dg send recvrÉ ZX: 后 半 部 分 号 
建立 信号 处 理 函 数 


42-43 ”建立 一 个 SIGALRM 信 号 处 理 函 数 ， 调 用 rtt_newpack 把 重 传 计 
数 器 设置 为 0。 
发 送 数据 报 

45-47 “调用 rtt_ts 获 取 当 前 时 间 惟 ， 并 把 它 存 入 将 安置 在 用 户 数 
据 之 前 的 hdr 结 构 中 。 调 用 sendmsg 发 送 单个 UDP 数据 报 。rtt_start 返 回 
以 秒 钟 为 单位 的 本 次 超时 值 ， 我 们 以 此 调用 alarm 以 调度 STGALRM。 
建立 跳 转 缓冲 区 


48 ”调用 sigsetjmp 为 信号 处 理 函 数 建立 了 一 个 跳 转 缓冲 区 。 奎 
sigsetjmp 的 返回 不 是 由 长 跳 转 引 起 则 调用 recvmsg 等 待 下 一 个 数据 报 的 





Sk. (我 们 已 在 图 20-9 中 随 SIGALRM 讨 论 过 sigsetjmp 和 siglongjmp 的 
用 法 ) 。 如 果 alarm 定 时 右 期 满 ，sigsetjmp 束 由 长 跳 转 返回 1 


603 

处 理 超时 

49-55 ” 当 超 时 发 生 时 ，rtt_timeout 用 于 计算 下 一 个 RTO (指数 回 
退 ) ， rea dne 若 应 重 传 则 返回 0。 若 放弃 则 把 errno 设 
BiXgETIMEDOUTJÉJÉ 给 调用 者 。 
调用 recvmsg， 比 较 序 列 号 

57-59 ”通过 调用 recvmsg 等 待 一 个 数据 报 的 到 达 。 所 接收 数据 报 的 
长 度 必 须 至 少 是 我 们 的 hdr 结 构 的 大 小 ， 而 且 其 序列 号 必须 等 于 所 发 送 
数据 报 的 序列 号 。 如 果 有 一 个 比较 失败 ， 那 就 再 次 调用 recvmsg。 
关闭 alarm 并 更 新 RTT 估 算 因 子 

60~62 ” 收 到 期 待 的 应 答 后 ， ed iat MT 
更 新 RTT 估 算 因 子 。rtt_stop 调 用 中 ，rtt_ts 返 回 当前 时 间 稚 ， 从 中 减 
去 所 接收 数据 报 的 时 间 惟 得 到 RTT。 


SIGALRM 处 理 函 数 





65-69 调用 siglongjmp， 使 dg_send_recv 中 的 sigsetjmp 返 回 1。 


我 们 接着 查看 由 dg_send_recv 调 用 的 各 个 RTT 函 数 。 图 22-10 给 出 了 
unprtt.h 头 文件 。 


libi unrprit h 
#ifmief _ ung rt- h 
fde?*ins ume rt- h 


LS] 


#incluse "unp.h* 


4 struct rtt info { 

5 float rtu vtt; /* most recent measured RTT, in seconds */ 

€ float rto srtt: /* smoothed RTT estimator, in seconds */ 

3 f'nar rt- rtrvar; /* smoorhed nean deviation, in seccnds */ 

g f-oat rt- rto; /* current RD to use, in eeconds */ 

9 int rt- nrexmt; /* # times retransmitted: C. 1, 2, ... */ 

10 uirt32 t rtt base; /* $ sec since 1/1/1970 st start */ 

11 ): 

12 &dezins RT AXTMIN 2 /* min retransmit timeout value. in seconds */ 
13 kRdetine TT SXTMAX £0 /* max retransmit timeout value, in seconds */ 
14 tdetine RTT_MAXNREXNT 3 /* max & times -o retransmit */ 

15 /* function prototypes */ 

16 void rtt delnugistruct rtt. info +); 

1; void rtc init(struct rtt :nfc *); 

1& void rtt newpack!struct rt- into *!; 

19 int rtt star-i|struct rtt info *!; 

20 void ctt stap(struct rtt. info *, uint32 t); 

21 int rtc cimecutistruct rtz info *!; 


22 uint32 t rtt tcíctruct rtt info +}; 
23 extern int rtz d flag: /* can be set to nonzero for add? info */ 


24 tendif /* — unp xtt h */ 
lib/ampri.ty 


图 22-10 | unprtt.n3k Xx fF 
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rt t info£Zü 构 


4-31 这 个 结构 含有 用 于 在 客户 和 服务 器 之 间 定 时 分 组 所 必需 的 变 
量 。 前 4 个 变量 来 自 本 节 开 始 处 给 出 的 方程 式 。 


12-14 这些 各 值 定 义 最 小 和 最 大 重 传 超时 值 以 及 最 大 重 传 次 数 。 


图 22-11 给 出 了 一 个 宏和 前 2 个 RTT 函 数 。 








-liéeti.c 





1 #include "ur.prLL .i" 

2 int rtt 3 flag - 0; /* debuz flag; can be set bv caller */ 
3 f* 

4 * Calculate the RTO value based cn current estimators: 

S * smoothed RTT plus four times rhe deviation 

e */ 

7 $3cbtinc RTT RTCCALC|ptr) '(ptr,-»rtz Srtt + (4.0 v (str) »rtt rttvar)! 
8 static float 

9 rl t_minmex (Tioat riol 

10 : 

1i iE (rzo < RTT RXTMIN) 

12 rto = RTT 3XTMIN; 

13 els» if irto > RTT_RXTMAXK) 

14 rto = RIT AxXIMAX; 

15 return!rto); 

16 | 

17 void 

18 rtt iniz!otruct rtt into *pt-) 

19 : 

20 struc- timeval tw; 

21 Gettimeofdey (atv, NULLI; 

22 ptr >rtt_bese = tv.tv sec; /* W sec since 1/1/1970 at start */ 
23 ptr-»rtt rtt = 0; 

24 ptr-»rtt srtt e 0; 

25 ptr-»rtt rttvar - 0.75; 

z6 ptr-zrtt rto = rtt minmax|RTT RTOCALC(pzr!); 

27 /* first RTO at (srtc + (4 * rttvar)] = 5 secords */ 

28 : 


litt 





图 22-11 RrT RTOCALCZZ VA JE rtt. minmaxcdillrtt. initPAK ZA 
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8-7 ”RTT_RTOCALC 宏 用 RTT 估 算 因 子 加 上 4 倍 平均 偏差 估算 因子 计算 
出 RTO。 


8-16 rtt_minmax 确 保 RTO 在 unprtt.h 头 文件 中 定义 的 上 下 界 之 








间 。 


17-28 rtt_init 由 dg_send_recv 在 首次 发 送 任意 一 个 分 组 时 调用 。 
其 中 gettimeofday 返 回 当前 时 间 和 日 期 ， 存 放 在 select 函 数 (6.35) 也 
使 用 的 timeval 结 构 中 。 我 们 仅仅 保存 目 Unix 纪 元 〈00:00:00 UTC 时 间 ) 
以 来 的 秒 钟 数 。 测 得 的 RTT 初 置 为 0，RTT 估 算 因 子 和 平均 偏差 估算 因 
子 分 别 初 置 为 Oo 和 0.75， 给 出 初始 RTO 为 3 秒 钟 。 


图 22-12 给 出 以 下 3 个 RTT 函 数 。 








ABLE 





34 uirL32 L 
35 rct ts(strucc rt- info *ptr) 


3e { 
37 uint32 t ts; 
38 struct timeval tv; 


Gettimeofday(&zv, NULL:; 
46 ts = ((tv.tv sec = ptr-»-tt base) * 1000) + (tv.tv usec / 1600!; 
41 return(íts,: 
12 ] 


43 void 

44 rtt mewpack (struct rtt info *ptr) 
45 { 

46 pLr-»rtL nrexh. = 2; 

a7 ) 


46 int 

49 rit „Star! 'struct ri L_infe *ot rj 

so | 

51 xeturn([int] (ctr--rtt_rto + 0.2)); /* round float tc int */ 

52 /* return value can be used as: &elarm[rt- starti&foo!) */ 

sa ) 

litt 





图 22-12 rtt ts. rtt_newpack 和 rtt_start 函 数 


34-42 rtt_ts 返 回 当前 时 间 惟 ， 供 调用 者 作为 一 个 无 符号 32 位 整 
数 存 放 在 待 发 送 的 数据 报 中 。 我 们 调用 gettimeofday 获 取 当 前 时 间 和 日 
期 ， 从 中 减 去 调用 rtt_init 时 的 秒 钟 数 〈 即 存放 在 rtt_base 中 的 值 ) ; 
接着 把 这 个 差 值 转换 成 宣 秒 数 ， 并 把 由 gettimeofday 返 回 的 微 秒 值 转换 
成 毫秒 数 。 时 间 惟 束 是 以 训 秒 为 单位 的 这 两 个 数值 之 和 。 

两 次 rtt_ts 调 用 返回 值 之 差 就 是 这 两 次 调用 之 间 的 毫秒 数 。 我 们 把 
以 训 秒 为 单位 的 时 间 惟 存放 在 无 符号 32 位 整数 中 ， 而 不 是 存放 
在 timeval 结 构 i o 


43-47 rtt_newpack 只 是 把 重 传 计数 器 设置 为 0。 每 当 第 一 次 发 送 一 
个 新 的 分 组 时 ， 都 得 调用 这 个 函数 。 


48-53 rtt_start 以 秒 为 单位 返回 当前 RTO。 返 回 值 随后 可 用 
作 alarm 的 参数 。 


图 22-13 给 出 的 rtt_stop 在 收 到 一 个 应 答 后 调用 ， 用 于 更 新 RIT 估 算 
因子 并 计算 新 的 RTO。 











AT 





A57 void 

62 rtt stop(strucc rtt info *pcr, uint32 t ms) 

$4 

65 double delta; 

bE ptr-»rtt rtt = me / 1000.0; /* meacured RTT in seconde */ 

67 /* 

Ei * Update cur estimators of RIT and mean deviation of FIT. 

59 + Sce Jaccbson'o SIOCOMM '£8 paper, Appendix ^, fcr the detaiic, 
70 * Ne use Ff:oa-ing point here for simplicity. 

71 xi 

72 delta = ptr-s-rct_rct - ptr-»rtt srtt; 

73 prr-»rtt srtt += delta / A; f* og = 1/8 */ 

14 i= (celta < U.J) 

75 delta = deltz: /* |deltal */ 

76 ptr-»ztt rttvar += idelta - ptr-»rtc ttvar) / 4; /* her life tf 
7 ptr-»rtt rto = rtt minmex(RTT RTOCA-C(ptr!): 

78 ) 


lirue 








[22-13 rtt_stop 函 数 : 更 新 RTT 估 算 因 子 并 计算 新 的 RTO 


62~78 ”第 二 个 参数 是 测 得 的 RTT， 它 由 调用 者 通过 从 当前 时 间 翟 
(rtt ts) 中 减 去 收 到 的 应 答 中 的 时 间 惟 得到。 本 函数 应 用 本 节 开 始 处 
的 方程 式 ， 在 rtt_srtt、rtt_rttvar 和 rtt_rto 这 3 个 成 员 中 存放 新 值 。 


22-1423 HB HEUS ARTTA ZA rtt timeout£E £z 4E AY zs HT] 
调用 。 











LE 
£^ ort 
€4 ret timeout (struct rct info *ptr) 
65 7 
£6 ptr-»rtt rto *- 2; /* next RTO */ 
57 if (-4pcr-»rtt nrexmz > RTT MAXNKEXMT! 
eg return{-1); /f* tire to give up tor this packet */ 
[--] retura!0); 
£0 
lih tit 





图 22-14 rtt_timeout eA: 应 用 指数 回 退 
606~~ 607 


86 当前 RTO 加 倍 : 这 就 是 指数 回 退 。 
87-89 ”如 果 已 经 达到 最 大 重 传 次 数 ， 那 就 返回 -1， 告 知 调用 者 放 


弃 ; 否则 返回 0。 





作为 一 个 例子 ， 我 们 的 客户 程序 在 茶 个 工作 日 早上 针对 2 个 路 因 特 
网 的 不 同 echo 服 务 器 执行 了 2 次 。 友 送 给 每 个 服务 器 的 都 是 500 行 文本 。 
去 往 第 一 个 服务 右 的 分 组 有 8 个 丢失 ， 去 往 第 二 个 服务 器 的 有 16 个 丢 
失 。 去 往 第 二 个 服务 器 的 丢失 分 组 中 ， 有 一 个 连 着 丢失 两 次 :也 就 是 说 
在 收 到 该 分 组 的 茶 个 应 答 之 前 ， 客 己 不 得 不 重 传 该 分 组 两 次 。 所 有 其 他 
丢失 分 组 都 只 需要 一 次 重 传 处 理 。 我 们 可 以 通过 显示 每 个 收 到 分 组 的 序 
列 号 来 验证 这 些 分 组 确实 丢失 了 。 如 果 一 个 分 组 仅仅 被 延迟 而 并 没有 丢 
失 ， 那 么 重 传 之 后 客户 会 收 到 两 个 应 答 : 一 个 对 应 于 被 延迟 了 的 初始 传 
送 ， 必 一 个 对 应 于 再 次 传送 。 当 重 传 分 组 时 ， 我 们 无 法 区 分 被 丢弃 的 分 
组 完 竟 是 客户 的 请 求 还 是 服务 器 的 应 答 。 


为 了 测试 本 客户 程序 ， 作 者 在 本 书 第 一 版 中 编写 了 一 个 随机 丢 茎 分 
组 的 UDP 服 务 器 程序 。 这 种 程 友 现 在 不 再 需要 了 ; 我 们 只 要 针对 一 个 里 
EIN ere reer andes qul aU IUE 

! 




















22.6 ”捆绑 接口 地 址 


get_ifi_info 函 数 的 常见 用 途 之 一 是 用 于 需要 监视 本 地 主机 所 有 接 
口 以 便 获 悉 某 个 数据 报 在 何 时 及 哪个 接口 上 到 达 的 UDP 应 用 程序 。 这 种 
用 途 允 许 接 收 程序 获悉 该 UDP 数据 报 的 目的 地 址 ， 因 为 决定 一 个 数据 报 
的 递送 套 接 字 的 正 是 它 的 目的 地 址 ， 即 使 主机 不 支持 ITP_RECVDSTADDR 套 
接 字 选项 也 不 影响 目的 地 址 的 获悉 。 


回顾 22.2 节 末尾 的 讨论 。 如 果 主 机 使 用 普通 的 弱 端 系统 模型 ， 那 么 
目的 IP 地 址 可 能 不 同 于 接收 接口 的 IP 地 址 。 这 种 情况 下 我 们 只 能 确定 数 
据 报 的 目的 地 址 ， 它 不 必 是 分 配给 接收 接口 的 某 个 地 址 。 为 了 确定 接收 
接口 ， 需 要 IP_RECVIF 或 TPV6_PKTINF0 这 两 个 套 接 字 选项 之 一 。 


图 22-15 给 出 了 使 用 该 技术 的 一 个 简单 UDP 服 务 器 程序 例子 的 第 一 
部 分 ， 它 捆绑 所 有 单 播 地 址 、 所 有 广播 地 址 以 及 通 配 地 址 。 








adviovndeserv03,c 





1 &incluce "uupifi.h" 


2 void nydg scho(int. SA *, sccklen t, SA “l; 


3 int 

4 main(:rt argc, char **argv) 

€ int 3ockEd; 

7 const int cn = 1; 

£ piq e pid; 

9 etruct fi :nfc tifi, *itihsad; 

10 struct soc4addr in *sa, cliadd-z, wildaddr; 

11 for (if:head = ifi = Get iti into(AP INET. 1); 

12 ifi != NULL; ifi = ifi-»ifi next] | 

12 /* bind unicast address */ 

14 sockfd = Socket (AR TN&ET, SOCK DGRAM, 0); 

15 Betscckopt (sockfd, S05 SOÓCEET, SO RREUSFANDR, &on, sizeof cnl); 
1€ 5a = ‘struct sozkaddr ian *) ifi-sifi_addri 

id sa-»sin femily = RF "NET; 

ig Sa->sin port - herons [SEaV PORT): 

19 Bind(sockfd, ($^ *) sa, oizcot(*oa);; 

20 printf ("hound tain", Sock_ntop( (Sa *) sa, sizeof (*sa))); 
21 if i {pid = Fork{)) == 9) | /* child */ 

22 mydj echoisockfd, (SA +) &cliaZdr, sizeoficliader), (SA *! sal; 
23 exit (0); /* rever axecuted */ 

24 ) 


acvio/mdoserv03. c 


图 22-15 “捆绑 所 有 地 址 的 UDP 服务 器 程序 的 第 一 部 分 
调用 get_ifi_info 获 取 接 口 信息 


11-12 ”调用 get_ifi_info 获 取 所 有 接口 的 所 有 IPv4 地 址 ， 包 括 别 名 
地 址 在 内 。 本 程序 接着 遍历 每 个 返回 的 ifi_info 结 构 。 


创建 UDP 和 套 接 字 并 捆绑 单 播 地 址 


13-20 创建 一 个 UDP 套 接 字 ， 在 其 上 捆绑 单 播 地 址 。 我 们 还 设 
置 so_REUSEADDR 套 接 字 选项 ， 因 为 我 们 要 给 所 有 了 地 址 捆绑 同一 个 端口 


(SERV_PORT) 。 
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并 非 所 有 的 实现 都 需要 设置 这 个 套 接 字 选 项 。 举 例 来 说 ， 源 目 
Berkeley 的 实现 不 需要 该 选项 就 允许 重新 bind 一 个 已 经 绑 定 的 端口 ， 只 
要 新 捆绑 的 IP 地 址 : Ca) 不 是 通 配 地 址 ， Cb) 不 同 于 已 经 绑 定 在 该 端 
AEP 
为 当前 地 址 fork 子 进程 


21-24 ”fork 一 个 子 进程 并 由 子 进程 调用 mydg_echo 函 数 。 该 函数 等 
符 任 意 数 据 报到 达 这 个 套 接 字 ， 然 后 把 它 回 射 给 发 送 者 。 


图 22-16 给 出 了 main 函 数 的 第 二 部 分 ， 这 部 分 处 理 的 是 广播 地 址 。 


advia/ndoserv3.c 





25 if (ifi-»ifi flags & IFF SRCADCAST) { 

26 /* try te bind broadcast address */ 

427 gockťd = SocketiAP_INET, SOCK DGRAM, 0); 

28 Setaccxopt(sockfd, SOL_GOTKET, SO_REUSZADDR, éon, sizeof 'cn) ); 
29 Sa = (struct seckaddr_in *) ifi -if- brdaddr; 

30 sSa-»siz family = AF INET; 

31 Sa->Sin_port = htons;sEXV PORT): 

32 iz (bind(cockfd, (S^ *) ca, sizeoti*sa)) < 0) [ 

33 if [armc — BADDRINUSE) ( 

34 zrinrf("SADDRINCSE: fan’, 

35 So^k nrop:(SA *) sa, sizecf(*vsa!)); 

36 Case (| sock=d) ; 

a? continue, 

3A ) ese 

39 err sysí"bind err-r fcr łs", 

40 Sock ntop1(9a +) sa, sizcof(*saj)); 

41 j 

42 printf ("bound $sXr", Sock ncopl(SA *) sa, sivmaf (4se))); 
41 i" ( i2id = Fork()! an 4) { /* chi w/ 

a4 my2g echcisock?d, (SA *) acliaddr. sizeofícliladd-), 
45 (SA +) zał; 

46 exit (0); /* never executed */ 

47 

48 } 

49 ] 


advio/ndpserv03.c 


图 22-16 ”捆绑 所 有 地 址 的 UDP 服务 器 程序 的 第 二 部 分 





捆绑 广播 地 址 


25-42 ”如 果 当 前 接口 支持 广播 ， 那 就 创建 一 个 UDP 套 接 字 并 在 其 
上 捆绑 广播 地 址 。 这 次 我 们 允许 bind 调 用 以 EADDRINUSE 错 误 返 回 失败 的 
结果 ， 因 为 如 果菜 个 接口 有 多 个 处 于 同一 个 子 网 的 地 址 (别名 〉 ， 那 么 
这 些 单 播 地 址 要 对 应 同一 个 广播 地 址 。 我 们 在 图 17-6 之 后 给 出 过 这 样 的 
一 个 例子 。 这 种 情形 下 我 们 只 能 期 望 第 一 次 bind 是 成 功 的 。 
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fork 子 进程 
43-47 ”fork 一 个 子 进程 并 由 子 进程 调用 mydg_echo 函 数 。 


main 闵 数 最 后 一 部 分 在 图 22-17 中 给 出 。 这 上 段 代 码 bind 通 配 地 址 ， 以 
处 理 除 已 经 绑 定 的 单 播 和 广播 地 址 之 外 的 任何 目的 地 址 。 能 够 到 达 这 个 
人 播 地 址 〈255.255.255.255) 的 
数据 报 。 


acvio/mdoservü3.c 





LI /* bind wildcard address */ 

Bl SCccxtad - Sockec(AF INET, SOCK DGRAM, 0); 

£2 Setsockoptiseckid, SCL_SOCKET, SO_REUSEADDR. &on, s-zecf(on)!; 

£3 bzero(&wildaddr, sizeof'wildazdr]); 

Eå wildadd>.sin_famiiy = AP INET; 

- wildaád".sin a*ár s addr = hronl([INADIR ZNY;; 

56 wildaddr.cin_port = atonc(SERV_CORT) ; 

27 Bindísockf3. [SA *) &wildeddr, s:zecf(wildadi-l!; 

ER printf ("bound §s\n", Sock ntop((Sh *) &wildaddr, sizeofiwildacdr]):; 
"9 if ( (pid = Fork()) == ©) [ /Ww child 47 

60 mvog echoisocktd, (SA v) Seliaddr, sizeoticliaddr), (SA *) sal; 
C1 exit (0), /* nevez executed */ 

£2 ] 

63 exitio); 

E4 


advio/mápservü3.c 


图 22-17 捆绑 所 有 地 址 的 UDP 服 务 器 程序 的 最 后 一 部 分 
创建 套 接 字 并 捆绑 通 配 地 址 


590-62 ”创建 一 个 UDP 套 接 字 ， 设 置 So_REUSEADDR 套 接 字 选项 ， 捆 绑 
通 配 IP 地 址 。 派 生 一 个 子 进程 并 由 子 进程 调用 mydg_echo 函 数 。 


main PÁ% IE 


63 ” main 函数 终止 ， 服 务 嚣 父 进 程 结束 ， 不 过 已 派生 的 所 有 子 进程 
继续 运行 。 


图 22-18 给 出 了 所 有 子 进 程 痢 执 行 的 mydg_echo 函 数 。 


acvio/mádpservü3.c 


65 void 

5€ måg echc;inz sockZd, SA *pzliaddr, sockler t czlilen, SA *myaddr) 
67 1 

66 int 2n; 

6S char mesg (NAXLINE) ; 

76 eockler t Len; 

71 fr i; 7) { 

Fa len = clilen: 

73 n = RecvErom(sockid, mesg, MAXLINE, 3, pcliadd-z, &lcn); 
74 princi ("child tZ, datagram From $s", getrid!!, 

75 Sock_nrop(peliaddr, len)); 

76 zrintf({", to te\n", Soc« ntop(myadzr, clilen!): 

Ti Serxizo(sockfd, mesg, n, 0, pcliardr, Len); 

7E } 

79 ) 


advio/mdpservü3.c 


图 22-18  mydg echorK Zi 





65-66 ”本 函数 的 第 四 个 参数 是 绑 定 在 给 定 套 接 字 上 的 IP 地 址 。 这 
个 套 接 字 应 该 只 接收 目的 地 址 为 该 IP 地 址 的 数据 报 。 如 果 该 人 PP 地 址 是 通 
配 地 址 ， 那 么 这 个 套 接 字 应 该 只 接收 与 绑 定 到 同一 端口 的 任何 其 他 套 接 
字 都 不 匹配 的 数据 报 。 


BEA BTR FF AIR IS M E 


71-78 ”调用 recvfrom 读 入 数据 报 ， 再 调用 sendto 把 它 发 回 给 客户 。 
本 函数 还 输出 客户 的 IP 地 址 以 及 绑 定 在 这 个 套 接 字 上 的 IP 地 址 。 
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在 主机 solaris 上 先 为 hmeg 以 太 网 接口 设置 一 个 别名 地 址 ， 再 运行 
本 程序 。 那 个 别名 地 址 为 10.0.0.200/24。 


solaris % udpserv03 
bound 127.0.0.1:9877 环 回 接 



































bound 10.0.0.200:9877 hmeo :1 接口 的 单 播 地 址 
bound 10.0.0.255:9877 hme0 :1 接口 的 广播 地 址 
bound 192.168.1.20:9877 hme0 接 口 的 单 播 地 址 
bound 192.168.1.255:9877 hme9 接 口 的 广播 地 址 
bound 0.0.0.0:9877 通 配 地 址 














我 们 可 以 使 用 netstat 检 查 所 有 这 些 套 接 字 确实 绑 定 了 所 指出 的 卫 
地 址 和 端口 号 。 
solaris % netstat -na | grep 9877 


127.0.0.1.9877 Idle 
10.0.0.200.9877 Idle 


.9877 Idle 
192.129.100.100.9877 Idle 
* ,9877 Idle 

* ,9877 Idle 


MZH, BOTA ABET ERECTAE — SF ERE K A fS] e 
起 见 ， 也 可 以 采用 其 他 的 设计 。 举 例 来 说 ， 为 了 减少 进程 数目 ， 程 序 可 
以 使 用 select 管 理 所 有 描述 符 ， 而 不 必 调 用 fork。 该 设计 的 问题 在 于 代 
码 复杂 性 增长 。 尽 管 使 用 select 可 以 很 容易 地 检测 所 有 描述 符 的 可 访问 
条 件 ， 我 们 却 不 得 不 维护 从 每 个 描述 符 到 它 的 绑 定 卫 地 址 的 茶 类 映射 
(可 能 是 一 个 结构 数组 ) ， 这 样 当 从 东 个 套 接 字 读 入 一 个 数据 报时 ， 我 








们 能 够 显示 它 的 目的 耻 地 址 。 为 每 个 操作 或 描述 符 使 用 单独 的 进程 或 线 
程 往 往 比 由 单个 进程 多 路 处 理 多 个 不 同 的 操作 或 描述 符 来 得 简单 。 


22. ”并 发 UDP 服务 器 


大 多 数 UDP 服务 器 程序 是 迁 代 运行 的 ， 服 务 器 等 待 一 个 客户 请 求 ， 
读 入 这 个 请 求 ， 处 理 这 个 请 求 ， 送 回 其 应 答 ， 接 着 等 待 下 一 个 客户 请 
求 。 然 而 当 客 户 请 求 的 处 理 需 耗 用 过 长 时 间 时 ， 我 们 期 望 UDP 服务 器 程 
序 具 有 某 种 形式 的 并 发 性 。 


“过 长 时 间 " 是 指 另 一 个 客户 因 服 务 器 正在 服务 当前 客户 而 被 迫 等 竺 
的 被 认为 是 太 长 的 时 间 。 举 例 来 说 ， 如 果 两 个 客户 请 求 在 10ms 内 相继 到 
达 ， 而 且 每 个 客户 的 平均 服务 时 间 为 5 秒 钟 ， 那 么 第 二 个 客户 不 得 不 等 
伟 约 10 秒 名 才能 收 到 应 答 ， 而 不 是 请 求 一 到 这 就 处 理 情形 下 的 约 5 和 
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对 于 TCP 服 务 器 ， 并 发 处 理 只 是 简单 地 fork 一 个 新 的 子 进程 或 者 
创建 一 个 新 的 线程 ， 见 第 26 章 ) ， 并 让 子 进 程 处 理 新 的 客户 。 当 使 用 
TCP 时 ， 服 务 器 的 并 发 处 理 得 以 简化 的 根源 在 于 每 个 客户 连接 都 是 唯一 
的 ;标识 每 个 客户 连接 的 是 唯一 的 TCP 套 接 字 对 。 然 而 对 于 UDP， 我 们 
必须 应 对 两 种 不 同类 型 的 服务 器 。 


(1) 第 一 种 UDP 服务 器 比较 简单 ， 该 入 一 个 客户 请 求 并 发 送 一 个 应 
答 后 ， 与 这 个 客户 就 不 再 相关 了 。 这 种 情形 下 ， 读 入 客户 请 求 的 服务 如 
可 以 fork 一 个 子 进程 并 让 子 进程 去 处 理 该 请 求 。 该 “请 求 ”( 即 请 求 数 据 
报 的 内 容 以 及 含有 客户 协议 地 址 的 套 接 字 地 址 结构 ) 通过 由 fork 复 制 的 
内 存 映 像 传递 给 也 进程。 然后 子 进程 把 它 的 应 答 直接 发 送 给 客户 。 


Q) 第 二 种 UDP 服务 器 与 客户 交换 多 个 数据 报 。 问 题 是 客户 知道 的 
服务 器 端口 号 只 有 服务 器 的 一 个 众所周知 端口 。 一 个 客户 发 送 其 请 求 的 
第 一 个 数据 报到 这 个 端口 ， 但 是 服务 器 如 何 区 分 这 是 来 自 该 客户 同一 个 
请 求 的 后 续 数据 报 还 是 来 自 其 他 客户 请 求 的 数据 报 呢 ? 这 个 问题 典型 的 
解决 办 法 是 让 服务 器 为 每 个 客户 创建 一 个 新 的 套 接 字 ， 在 其 上 bind 一 个 
临时 端口 ， 然 后 使 用 该 套 接 字 发 送 对 该 客户 的 所 有 应 答 。 这 个 办 法 要 求 
客户 查看 服务 器 第 一 个 应 答 中 的 源 瑞 吕 号， 并 把 本 请 求 的 后 续 数 据 报 发 
送 到 该 端口 。 




















第 二 种 类 型 UDP 服务 器 的 一 个 例子 是 TFTP。 使 用 TFTP 传 送 一 个 文 
件 通 常 需要 许多 数据 报 (成 百 上 和 干 ， 取 决 于 文件 长 度 ) ， 因 为 该 协议 发 
送 的 每 个 数据 报 只 有 512 字 节 的 数据 。 客 户 往 服务 器 的 众所周知 端口 
(690 发 送 一 个 数据 报 ， 指 定 要 发 送 或 接收 的 文件 。 服 务 器 读 入 该 请 
求 ， 但 是 从 另外 一 个 由 它 创 建 并 绑 定 某 个 临时 端口 的 套 接 字 发 送 它 的 应 
答 。 客 户 和 服务 器 之 间 传 送 该 文件 的 所 有 后 续 数 据 报 都 使 用 这 个 新 的 套 
接 字 。 这 么 做 允许 主 TFTP 服 务 器 在 文件 传送 发 生 的 同时 (可 能 持续 数 
秒 钟 甚至 数 分 钟 ) 继续 处 理 到 达 端 口 69 的 其 他 客户 请 求 。 


对 于 一 个 独立 的 TFTP 服 务 器 〈 即 不 是 由 inetd 激 发 ) ， 我 们 有 图 22- 
19 所 示 的 情形 。 我 们 假设 子 进程 捆绑 到 新 套 接 字 上 的 临时 端口 是 2134。 
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[22-19 ”独立 运行 的 UDP 并 发 服务 器 所 涉及 步 又 


对 于 由 inetd 激 活 的 TFTP 服 务 器 ， 其 情形 涉及 另外 一 个 步骤 。 回 顾 
图 13-6， 我 们 知道 大 多 数 UDP 服 务 器 把 inetd 配 置 文本 行 中 的 wait-flag 字 
段 指 定 为 wait。 我 们 在 图 13-10 之 后 的 叙述 中 说 过 ， 该 值 导致 inetd 停 止 
在 相应 套 接 字 上 选择 可 访问 条 件 ， 直 到 相应 子 进程 终止 为 止 ， 从 而 允许 
该 子 进程 读 入 到 达 该 套 接 字 的 数据 报 。 图 22-20 展 示 了 本 情形 涉及 的 步 


又 。 
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图 22-20 由 inetd 激 发 的 UDP 并 发 服务 器 所 涉及 步 又 
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自 成 inetd 子 进程 的 TFTP 服 务 器 调用 recvfrom 读 入 客户 请 求 ， 然 
后 fork 一 个 自己 的 子 进程 ， 并 由 该 子 进程 处 理 该 客户 请 求 。TFTP 服 务 
器 随后 调用 exit， 以 便 给 inetd 发 送 sSIGcHLD 信 和 号， 告知 inetd 重 新 在 绑 定 
UDP 端口 69 的 套 接 字 上 select 可 访问 条 件 。 
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an EN 


22.8 IPv6 分 组 信息 

IPv6 人 允许 应 用 进程 为 每 个 外 出 数据 报 指 定 最 多 5 条 信息 : 

(1) 源 IPv6 地 址 ; 

(2) 外 出 接口 索引 ; 

(3) 外 出 跳 限 ; 

(4) 下 一 跳 地 址 ; 

(5) 外 出 流通 类 别 。 

这 些 信 息 会 作为 辅助 数据 使 用 sendmsg 发 送 。 它 们 还 有 对 应 的 套 接 
字 黏附 选项 ， 用 于 对 所 发 送 的 每 个 分 组 隐 式 指定 这 些 信息 〈27.7 节 ) 。 
IPv6 还 允许 为 每 个 接收 分 组 返回 4 条 类 似 的 信息 ， 它 们 同样 作为 辅助 数 
据 由 recvmsg 返 回 : 

(1) 目的 IPv6 地 址 ; 

(2) 到 达 接 口 索引 ; 

(3) 到 达 跳 限 ; 

(4) 到 达 流 通 类 别 。 


图 22-21 总 结 了 我 们 稍 后 讨论 的 这 些 辅 助 数据 的 内 容 。 

















emsghdr{} 









32 i6 
IPPROTO IPVé omsg level  |IPPROTO IPVé 
cmsg_ type IPV6 PKTINFO cmsg type | iPV6 HOPLIMIT 
IPv6 地 址 
in6 pktinfo[) 
png | 
emsghdr{} emsghdr{} 
cmsg len 40 cmag len i6 






cmsg level IPPROTO IFVé 
cmsg type iPV6 TCLASS 
OI AS yl 


cmsq level IPPROTO IPV6 
cmeg type lPV6 NEXTHOP 














fud SA RY 








图 22-21 IPv6 分 组 信息 的 辅助 数据 
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in6_pktinfo 结 构 对 于 外 出 数据 报 含 有 源 IPv6 地 址 和 外 出 接口 索引 ， 
对 于 接收 数据 报 含有 目的 IPv6 地 址 和 到 达 接 口 索 3 


struct in6 pktinfo { 
struct in6 addr ipi6 addr; /* src/dst IPv6 address */ 
int ipie ifindex; /* send/recv interface index */ 


HN 


o 





该 结构 定义 在 <netinet/in.h> 头 文件 中 。 包 含 本 辅助 数据 的 cmsghdr 
结构 中 ，cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 
是 IPV6_PKTINF0， 数 据 的 第 一 个 字 市 将 是 in6_pktinfo 结 构 的 第 一 个 字 
节 。 在 图 22-21 的 例子 中 ， 我 们 假设 cmsghdr 结 构 和 数据 之 间 没 有 填充 字 
节 ， 并 且 一 个 整数 的 大 小 为 4 个 字 市 。 


这 些 信息 有 两 个 指定 途径 : 如 果 针 对 单个 数据 报 ， 那 就 作为 辅助 数 
据 指 定 为 调用 sendmsg 的 控制 信息 ， 如果 针对 通过 茶 个 套 接 字 发 送 的 所 








有 数据 报 ， 那 就 作为 一 个 in6_pktinfo 结 构 的 选项 值 设 置 TIPv6_PKTINFo 套 
接 字 选项 。 这 些 信息 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 
经 开启 IPV6_RECVPKTINF0 套 接 字 选项 。 


22.8.1 ”外 出 和 到 达 接 口 


正如 18.6 节 所 述 ，IPv6 节 点 的 接口 由 正 值 整数 标识 。 任 何 接口 都 不 
会 被 赋予 0 值 索 引 。 指 定 外 出 接口 时 ， 如 果 :ipi6_ifindex 成 员 值 为 0， 那 
就 由 内 核 选择 外 出 接口 。 如 果 应 用 进程 为 某 个 多 播 数 据 报 指定 了 外 出 接 
口 ， 那 么 单 就 这 个 数据 报 而 言 ， 由 辅助 数据 指定 的 接口 将 窗 写 
由 IPV6_MULTICAST_IF 套 接 字 选项 指定 的 任意 接口 。 


22.8.2 源 和 目的 IPv6 地 址 


源 IPv6 地 址 通常 通过 调用 bind 指 定 。 不 过 连同 数据 一 起 指定 源 地 址 
可 能 并 不 需要 多 少 开 销 。 后 者 还 允许 服务 器 确保 所 发 送 应 答 的 源 地 址 等 
于 相应 客户 请 求 的 目的 地 址 ， 这 是 一 个 某 些 客户 需要 上 且 IPv4 又 难以 提供 
的 特性 〈 习 题 22.4) 。 


当 作为 辅助 数据 指定 源 IPv6 地 址 时 ， 如 果 in6_pktinfo 结 构 的 
ipi6_addr 成 员 是 IN6ADDR_ANY_INIT， 那 么 ; (a) 如果 该 套 接 字 上 已 经 
绑 定 某 个 地 址 ， 那 就 把 它 用 作 源 地 址 ;或 者 b) 如 果 该 套 接 字 上 未 绑 
定 任何 地 址 ， 那 就 由 内 核 选择 源 地 址 。 和 否则， 如 果 ipi6_addr 成 员 不 是 
这 个 非 确定 地 址 ， 不 过 该 套 接 字 上 已 经 绑 定 某 个 源 地 址 ， 那 么 单 就 本 次 
输出 操作 而 言 ，ipi6_addr 值 将 覆 写 已 经 绑 定 的 源 地 址 。 内 核 将 验证 所 
请 求 的 源 地 址 确实 是 赋予 本 节点 的 某 个 单 播 地 址 。 


当 in6_pktinfo 结 构 由 recvmsg 作 为 辅助 数据 返回 时 ， 其 ipi6_addr 成 
员 含 有 取 自 所 接收 分 组 的 目的 IPv6 地 址 。 这 一 点 在 概念 上 类 似 IPv4 的 
IP_RECVDSTADDR 套 接 字 选项 。 
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22.8.3 ”指定 和 接收 跳 限 


对 于 单 播 数 据 报 ， 外 出 跳 限 通常 使 用 IPv6_UNICAST_HOPS 套 接 字 选 项 
HE 〈7.8 节 ) ; 对 于 多 播 数据 报 ， 外 出 跳 限 通 常 使 


用 IPv6_MULTICAST_HoPS 套 接 字 选项 指定 (21.608) 。 不 论 目 的 地 为 单 播 
地 址 还 是 多 播 地 址 ， 作 为 辅助 数据 指定 跳 限 却 允许 我 们 单 就 某 次 输出 操 
作 宪 写 内 核 的 默认 值 或 早先 指定 的 普 适 值 。 对 于 诸如 traceroute 之 类 的 
程序 以 及 需 验证 接收 跳 限 为 255〈 表 示 分 组 未 被 转发 过 ) 的 一 类 IPv6 应 
用 程序 来 说 ， 返 回 接收 跳 限 是 有 用 的 。 


接收 跳 限 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 经 开 
启 IPV6_RECVHOPLIMIT 套 接 字 选项 。 包 含 本 辅助 数据 的 cmsghdr 结 构 
中 ， cmsg_level hk 447 IPPROTO_IPV6, cmsg_type 成 员 将 
是 IPV6_HOPLIMIT， 数 据 的 第 一 个 字 节 将 是 4 字 节 整数 跳 限 的 第 一 个 字 
节 。 我 们 在 图 22-21 中 展示 了 该 结构 。 需 留意 的 是 ， 作 为 辅助 数据 返回 
的 值 是 来 目 所 接收 数据 报 的 真实 值 ， 而 由 getsockopt 返 回 的 
IPV6_UNICAST_HOPS 套 接 字 选项 值 是 内 核 将 用 于 相应 套 接 字 上 上 所 有 外 出 数 
据 报 中 的 默认 值 。 


要 控制 给 定 分 组 的 外 出 跳 限 ， 只 要 把 控制 信息 指定 为 sendmsg 的 畏 
an or aera ney 
WB. 


跳 限 没有 包含 在 in6_pktinfo 结 构 中 的 原因 如 下 : 一 些 UDP 服 务 右 
锅 望 以 这 样 的 方式 来 啊 应 客户 请 求 ， 即 从 相应 请 求 的 接收 接口 发 送 应 
答 ， 而 且 所 用 IPv6 源 地 址 就 是 相应 请 求 的 IPv6 目 的 地 址 。 为 了 做 到 这 一 
点 ， 应 用 进程 可 以 只 开启 IPV6_RECVPKTINF0 套 接 字 选项 ， 然 后 把 来 自 
recvmsg 的 接收 控制 信息 用 作 sendmsg 的 外 出 控制 信息 。 应 用 进程 根本 不 
必 检 得 或 修改 in6_pktinfo 结 构 。 然 而 要 是 跳 限 包含 在 该 结构 中 ， 那 么 
应 用 进程 将 不 得 不 分 析 接 收 控制 信息 并 修改 跳 限 成 员 ， 因 为 接收 跳 限 并 
不 是 外 出 分 组 期 望 的 跳 限 值 。 


22.8.4 ”指定 下 一 跳 地 址 


IPV6_NEXTHOP 辅 助 数 据 对 象 将 数据 报 的 下 一 跳 指 定 为 一 个 套 接 字 地 
址 结构 。 在 包含 本 辅助 数据 的 cmsghdr 结 构 中 ， cmsg_level 成 员 


是 IPPROTO_IPV6，cmsg_type 成 员 是 IPV6_NEXTHOP， 数 据 的 第 一 字 节 是 套 
接 字 地 址 结构 的 第 一 个 字 节 。 


我 们 在 图 22-21 中 展示 了 本 辅助 数据 对 象 的 一 个 例子 ， 其 中 假设 套 
接 字 地 址 结构 是 28 字 节 的 sockaddr_in6 结 构 。 本 例 中 由 下 一 跳 地 址 标识 























的 节点 必须 是 发 送 主机 的 一 个 邻居 。 如 果 该 地 址 等 于 数据 报 的 目的 IPv6 
地 址 ， 那 么 相当 于 已 有 的 So_DpoNTROUTE 套 接 字 选项 。 下 一 跳 地 址 也 可 以 
针对 通过 某 个 套 接 字 发 送 的 所 有 数据 报 设 置 ， 途 径 是 以 一 

个 sockaddr_in6 结 构 作 为 选项 值 设置 TIPVv6_NEXTHoP 套 接 字 选项 。 设 置 本 
选项 需要 超级 用 户 权 限 。 
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22.8.5 ”指定 和 接收 流通 类 别 
IPV6_TCLASS 辅 助 数 据 对 象 指定 数据 报 的 流通 类 别 。 在 包含 本 辅助 


数据 的 cmsghdr 结 构 中 ， cmsg_level 成 员 将 是 IPPROTO_IPV6， cmsg type 
成 员 将 是 IPv6_TCLASS， 数 据 的 第 一 个 字 节 将 是 4 字 节 整数 流通 类 别 的 第 
一 个 字 节 。 我 们 在 图 22-21 中 展示 了 该 结构 。 正 如 A.3 节 所 述 ， 流 通 类 别 
由 DSCP 和 ECN 两 个 字段 构成 。 它 们 必须 一 起 设置 。 如 果 内 核 有 必要 控 
制 这 些 值 ， 它 就 屏蔽 或 忽略 用 户 指 定 的 值 〈 壁 如 说 如 果 内 核实 现 了 
ECN， 它 可 能 就 不 顾 应 用 进程 通过 IPv6_TcLASS 套 接 字 选项 设置 的 2 位 
ECN 值 而 自行 设置 ECN〉。 流 通 类 别 的 正常 值 在 0~255 之 间 E), A 
为 -1 则 告知 内 核 使 用 默认 值 。 


如 果 为 某 个 给 定 分 组 指定 流通 类 别 ， 那 么 只 需 包含 辅助 数据 ; 如果 
为 通过 某 个 套 接 字 的 所 有 分 组 指定 流通 类 别 ， 那 就 以 一 个 整数 选项 值 设 
置 Ipve_TcLASS 套 接 字 选项 ， 如 27.7 节 所 述 。 接 收 流 通 类 别 由 recvmsg 作 
为 辅助 数据 返回 的 前 提 是 应 用 进程 已 开启 IPv6_RECVTCLASS 套 接 字 选 项 。 

















22.9 IPv6 路 径 MTU 控 制 


IPv6 为 应 用 程序 提供 了 若干 路 径 MTU 发 现 控 制 手 段 (2.117) 。 默 
认 设 置 对 于 绝 大 多 数 应 用 程序 是 合适 的 ， 不 过 特殊 目的 程序 可 能 想 要 更 
改 路 径 MTU 发 现行 为 。IPv6 为 此 提供 了 4 个 套 接 字 选 项 。 


22.9.1 以 最 小 MTU 发 送 


执行 路 径 MTU 故 现时 ，IP 数 据 报 通常 按照 外 出 接口 的 MTU 或 路 径 
MTU 二 者 中 较 小 者 进行 分 片 。IPv6 定 义 了 值 为 1280 字 节 的 最 小 MTU， 
所 有 链 路 都 必须 支持 。 按 照 这 个 最 小 MITU 进 行 分 片 可 能 丧失 一 些 发 送 
较 大 分 组 的 机 会 ， 不 过 避免 了 路 径 MTU 发 现 的 缺点 (MTU 发 现 期 间 的 
分 组 丢失 和 数据 发 送 延 迟 ) 。 


有 两 种 类 型 的 应 用 程序 可 能 想 要 使 用 最 小 MITU 发 送 分 组 : 一 种 使 
用 多 播 ， 另 一 种 与 多 个 目的 地 简短 地 交互 〈 辟 如 DNS) 。 与 接收 并 处 理 
大 量 ICMP“packet too big” 消 息 所 付 代价 相 比 ， 为 多 播 会 话 肥 现 MTU 显 
得 并 不 重要 。 诸 如 DNS 之 类 应 用 程序 通常 不 与 单个 服务 器 频繁 地 通信 ， 
使 得 冒 路 径 MTU 发 现 的 分 组 丢失 之 险 难 见 所 值 。 


使 用 最 小 MTU 由 IPv6_USE_MIN_MTU 套 接 字 选项 控制 。 该 选项 有 3 个 
已 定义 的 值 : 默认 值 -1 表示 对 多 播 目 的 地 使 用 最 小 MTU， 对 单 播 目 的 地 
执行 路 径 MTU 发 现 ，0 表 示 对 所 有 目的 地 都 执行 路 径 MTU 发 现 ，1 表 示 
对 所 有 目的 地 都 使 用 最 小 MTU。 











618 
IPV6_USE_MIN_MTU 选 项 信也 可 以 作为 辅助 数据 发 送 。 包 含 本 辅助 数 


据 的 cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 IPPROT0O_IPV6，cmsg_type 成 
员 将 是 IPV6_USsE_MIN_MTU， 数 据 的 第 一 个 字 节 将 是 4 字 节 整数 本 选项 值 的 











22.9.2 ”接收 路 径 MTU 变 动 指示 
应 用 进程 可 以 开局 IPV6_RECVPATHMTU 套 接 字 选项 以 接收 路 径 MTU 变 


动 通知 。 本 标志 值 使 得 任何 时 候 路 径 MTU 发 生变 动 时 作为 辅助 数据 

由 recvmsg 返 回 变动 后 的 路 径 MTU。 由 recvmsg 这 样 返 回 的 数据 报 长 度 可 
能 为 0， 不 过 含有 指示 路 径 MTU 的 辅助 数据 。 包 含 本 辅助 数据 的 cmsghdr 
结构 中 ，cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 

是 IPV6_PATHMTU， 数 据 的 第 一 个 字 节 将 是 一 个 ip6_mtuinfo 结 构 的 第 一 个 
字 节 。 该 结构 含有 路 径 MTU 发 生变 动 的 目的 地 和 以 字 节 为 单位 新 的 路 

径 MTU 值 ， 定 义 在 <netinet/in.h> 头 文件 中 。 








struct ip6 mtuinfo { 

struct sockaddr in6 ip addr; /* destination address */ 

uint32 t ip mtu; /* path MTU in host byte order */ 
H 


22.9.3 ”确定 当前 路 径 MTU 


如 果 一 个 应 用 进程 并 没有 使 用 IPv6_RECVPATHMTU 套 接 字 选 项 一 直 在 
跟踪 路 径 MTU 的 变动 ， 那 么 可 以 使 用 IPv6_PATHMTU 套 接 字 选项 确定 某 个 
已 连接 套 接 字 的 当前 路 径 MTU。 这 是 一 个 只 能 获取 的 选项 ， 作 为 选项 
值 的 ip6_mtuinfo 结 构 〈 见 上 ) 含有 当前 路 径 MTU。 如 果 未 能 确定 路 径 
MTU， 那 就 返回 外 出 接口 的 MTU。 返 回 的 地 址 值 没 有 定义 。 


22.9.4 避免 分 片 


默认 情况 下 IPv6 协 议 栈 将 按照 路 径 MTU 对 外 出 耳 数 据 报 执行 分 片 。 
诸如 traceroute 之 类 程序 可 能 不 希望 有 这 种 目 动 分 片 特性 ， 而 是 自行 发 
现 路 径 MTU。IPVv6_DONTFRAG 套 接 字 选项 用 于 关闭 自动 分 片 特性 ; 其 值 
为 0( 默 认 值 ) 表 示人 允许 自动 分 片 ， 为 1 则 关闭 自动 分 厂 。 


关闭 自动 分 片 后 ， 提 供需 要 分 片 的 分 组 的 send 调 用 可 以 返回 
EMSGSIZE 错 误 ; 不 过 实现 并 非 必须 提供 这 种 错误 指示 。 确 定 某 个 分 组 是 
否 需 要 分 片 的 唯一 确实 有 效 的 方法 是 使 用 IPvV6_RECVPATHMTU 套 接 字 选 
项 。 


IPV6_DONTFRAG 选 项 值 也 可 以 作为 辅助 数据 发 送 。 包 含 本 辅助 数据 
的 cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 IPPROT0O_IPV6，cmsg_type 成 员 
将 是 IPV6_DONTFRAG， 数 据 的 第 一 个 字 节 将 是 4 字 节 整数 本 选项 值 的 第 一 
人 心志 
If Ho 
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22.10 “人 小结 


有 些 应 用 程序 需要 知道 某 个 UDP 数据 报 的 目的 IPv4 地 址 和 接收 接 
口 。 开 启 IP_RECVDSTADDR 和 IP_RECVIF 套 接 字 选项 可 以 作为 辅助 数据 随 每 
个 数据 报 返回 这 些 信息 。 对 于 IPv6 套 接 字 ， 关 似 IPv4 的 信息 以 及 接收 跌 
限 和 接收 流通 类 别 可 以 通过 开启 IPv6_RECVPKTINFO、IPV6_RECVHOP- 
LIMITHLIPVO RECVTCLASS ERE SE #4 ULB [B 


尽管 UDP 无 法 提供 TCP 提 供 的 众多 特性 ， 需 要 使 用 UDP 的 场合 依然 
不 少 。 广 播 或 多 播 应 用 必须 使 用 UDP。 人 简单 的 请 求 一 应 答 情 形 也 可 以 使 
用 UDP， 不 过 必须 在 应 用 程序 中 增加 茶 种 形式 的 可 靠 性 。UDP 不 应 该 用 
于 海量 数据 的 传送 。 


通过 使 用 超时 和 重 传 机 制 检 测 丢 失 分 组 ， 我 们 在 22.5 节 增加 了 UDP 
回 射 客户 程序 的 可 靠 性 。 通 过 给 每 个 分 组 增加 一 个 时 间 惟 并 追踪 RIT 及 
其 平均 偏差 这 2 个 估算 因子 ， 我 们 在 动态 地 修改 重 传 超时 值 。 我 们 还 给 
每 个 分 组 增加 一 个 序列 号 以 验证 茶 个 给 定 应 答 是 期 望 的 应 答 。 该 客户 程 
序 仍然 采用 简单 的 俘 等 协议 ， 不 过 这 是 UDP 所 能 文 持 的 应 用 程序 类 型 。 








习题 
22.1 在 图 22-18 中 为 什么 有 两 次 printf 调 用 ? 
22.2 dg_send_recv〈 图 22-8 和 图 22-9) fë TIRIO? 


22.3 重新 编写 dg_send_recv， 改 用 select 及 其 定时 器 取代 
alarm, SIGALRM, sigsetjmp 和 sigLlongjmp。 


22.4 JIPv4 服 务 器 如 何 保证 所 发 送 应 答 的 源 地 址 等 于 相应 客户 请 求 
的 目的 地 址 (类似 由 IPv6_PkTINF0 套 接 字 选 项 提供 的 功能 ) ? 


22.5 图 22-6 中 的 main 函 数 是 IPv4 协 议 相 关 的 ， 把 它 改写 成 协议 无 
关 的 版 本 。 要 求 用 户 指定 一 个 或 两 个 命令 行 参 数 ， 第 一 个 是 可 选 的 卫 地 
Hb C5E4:0.0.0.0:&0::00 ， 第 二 个 是 必需 的 端口 号 。 接 着 调用 udp_client 
获取 套 接 字 地 址 结构 的 地 址 族 、 端 口号 和 长 度 。 既 然 udp_client 并 没有 
给 getaddrinfo 指 定 AI_PASSIVE 上 暗示 信息 ， 如 果 像 建议 的 那样 不 指定 
hostname 参 数 束 调用 udp_client， 将 会 发 生 什 么 ? 


22.6 ”更 改 相 关 RTT 函 数 以 输出 每 个 RTT， 然 后 对 跨 因 特 网 的 标准 
echo 服 务 器 运行 图 22-6 所 在 的 客户 程序 。 修 改 dg_send_recv 函 数 以 输出 
每 个 收 到 的 序列 号 。 伴 随 RTT 及 其 平均 偏差 这 2 个 估算 因子 绘 出 结果 
RTT 的 动态 变化 。 
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Q 图 22-9 中 存在 一 个 非 致 命 的 竞争 状态 : 如 果 sIGALRM 是 在 某 个 成 功 的 
recvmsg 调 用 之 后 的 第 59 行 和 第 60 行 之 间 递 交 ， 那 么 它 将 导致 一 次 非 必 
要 的 重 传 。 译 者 注 





72333. mZRSCTIPA TL EE 


23.1 概述 


我 们 将 在 本 章 较 深入 地 讨论 SCTP， 查 看 SCTP 提 供 的 更 多 特性 和 套 
接 字 选项 。 我 们 将 讨论 多 个 论题 ， 包 括 故障 检测 的 控制 、 无 序 的 数据 以 
及 通知 。 本 章 通 章 提 供 了 多 个 代码 例子 ， 以 展示 如 何 使 用 SCTP 的 某 些 


高 级 特性 。 


SCTP 是 一 个 面 问 消息 的 协议 ， 递 送 给 用 户 的 是 部 分 的 或 完整 的 消 
恩 。 部 分 消息 的 递送 前 提 十 应 用 进程 选择 同 对 疹 发 送 大 消息 〈 如 大 于 套 
接 字 缓冲 区 一 半 大 小 ) 。 部 分 消息 被 递送 给 应 用 进程 之 后 ， 多 个 部 分 消 
息 组 合成 单个 完整 消息 并 不 由 SCTP 负 责 。 在 应 用 进程 看 来 ， 一 个 消息 
既 可 以 由 单个 输入 操作 接收 ， 也 可 以 由 知 干 个 相继 的 输入 操作 接收 。 我 
们 将 通过 一 个 作为 例子 的 函数 说 明 处 理 这 种 部 分 递送 机 制 的 一 个 方法 。 


SCTP 服 务 器 程序 既 可 以 欠 代 运行 ， 也 可 以 并 发 运行 ， 这 取决 于 应 
用 程序 开发 人 员 选 取 的 套 接 字 式样 。SCTP 还 提供 了 从 一 到 多 式 套 接 字 
抽取 某 个 关联 并 使 其 成 为 一 到 一 式 套 接 字 的 方法 。 本 方法 允许 构造 既 可 
夫 代 运行 义 可 并 发 运行 的 服务 器 程序 。 














23.2 上 自动 关闭 的 一 到 多 式 服务 器 程序 


回顾 我 们 在 第 10 章 中 编写 的 服务 器 程序 ， 它 不 保持 任何 关联 状态 ， 
因为 它 依赖 客户 程序 关闭 关联 。 依 赖 客户 关闭 关联 存在 这 样 的 弱点 : 要 
是 客户 打开 一 个 关联 后 从 不 发 送 任何 数据 ， 将 发 生 什 么 ? 服务 器 不 得 不 
将 资源 分 配给 从 不 使 用 这 些 资源 的 客户 。 懒 惰 的 客户 会 无 意 中 造 成 对 于 
SCTP 实 现 的 拒绝 服务 攻击 。 为 了 避免 这 个 问题 ，SCTP 增 设 了 自动 关闭 


Cautoclosing) 特性 。 
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目 动 关闭 允许 SCTP 端 点 指定 茶 个 关联 可 以 保持 空闲 的 最 大 秒 钟 
数 。 关 联 在 任何 方向 上 都 没有 用 户 数据 在 传送 时 就 认为 它 是 空 亲 的 。 如 
和 
XH]. 


使 用 自动 关闭 套 接 字 选 项 应 该 仔细 选择 其 值 。 若 服务 器 选择 太 小 的 
值 ， 它 可 能 会 发 现 自己 是 在 已 经 关闭 的 关联 上 发 送 数据 。 重 新 打开 关联 
以 便 癌 客户 发 送 回 数据 需要 额外 开销 ， 更 何况 客户 不 大 可 能 已 经 调用 过 
listen 以 允许 外 来 关联 。 图 23-1 是 第 10 章 中 服务 器 程序 的 修订 版 本 ， 其 
中 插入 必要 的 调用 以 避免 出 现 长 期 空闲 的 关联 。 正 如 7.10 节 所 述 ， 自 动 
和 
Wo 

















sctp/scteservüd.c 





14 IE (argc s5 2; 
15 stream increment - stoi(argv:1]!; 


, 
16 Sock 22 = socket (4F_INET, SOCK SEQPAZCKE7, IPFROTO_SCTP) ; 
17 close time - 120; 
18 Setsockopr isock_fd, IPSROTO SCTE, SCTS_AUTACLOSE, 
19 uclcse time. sízeof[close time,); 


20 bzebpo(&5ervacdr ，5izeoEiaexvaddr,) ; 
21 servaddr.sin family = AF INET; 
servaddr.sin addr.s adar = htonl[IMADDR ANY;; 
scrvaddr.oin port = Atons{SERV_CORT) ; 
sctp/sctpservdJ.c 


图 23-1 开启 自动 关闭 特性 的 服务 器 程序 





设置 自动 天 闭 选项 





17-19 ”选择 120 秒 钟 为 空 闪 关联 自动 关闭 时 间 ， 并 将 该 值 置 于 变量 
close_time 中 。 接 着 调用 setsockopt 套 接 字 选项 配置 该 自动 关闭 时 间 。 
其 余 代码 保持 不 变 。 


现在 SCTP 将 自动 关闭 空 几时 间 超 过 两 分 钟 的 关联 。 通 过 这 种 自动 
强制 关闭 关联 的 方法 ， 我 们 减少 了 懒惰 客户 的 资源 消耗 。 











23.3 AD^] BA 

当 应 用 进程 要 求 SCTP 传 输 过 大 的 消息 时 ，SCTP 可 能 采取 部 分 递送 
音 施 ， 这 里 “过 大 ”意味 着 SCTP 栈 认为 没有 足够 的 资源 专用 于 这 样 的 消 
县。 接收 端 SCTP 实 现 开 启 本 API 需 要 考虑 以 下 几 点 。 
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。 所 接收 消息 的 缓冲 区 空间 耗 用 量 必 须 满 足 或 超过 菏 个 门槛 。 

。 SCTP 栈 最 多 只 能 从 该 消息 开始 处 顺序 递送 到 首 个 缺失 断 刻 。 

e 一 旦 激 及 ， 其 他 消息 必须 等 到 当前 消 奶 已 梓 完 整地 接收 并 递送 给 接 
收 端 应 用 进程 之 后 才能 被 递送 。 也 就 是 说 过 大 的 消息 会 阻塞 通常 情 
况 下 可 以 递送 的 所 有 其 他 消 恩 的 递送 ， 包 括 其 他 流 中 的 消息 。 


SCTP 的 KAME 实 现 使 用 的 门槛 是 套 接 字 接收 缓冲 区 的 一 半 大 小 。 
编写 本 书 时 这 个 SCTP 栈 的 默认 接收 缓冲 区 大 小 为 131072 字 节 。 因 此 要 
是 不 修改 so_RcvBUF 套 接 字 选项 值 ， 单 个 消息 必须 超过 65536 字 节 才 会 激 
起 部 分 递送 API。 为 了 把 10.2 节 给 出 的 服务 器 程序 改 为 使 用 部 分 递送 ， 
3&4 12628 53 — 4 hE sctp_recvmsg A A Us] Hd 的 实用 函数 ， 再 创建 使 用 这 
个 新 函数 的 改进 服务 器 。 图 23-2 给 出 了 处 理 部 分 递送 API 的 sctp_recvmsg 
外 包 函 数 。 


relpitcip_pdapirev.c 
1 #include “unp.h" 


2 static uint& t *^sctcp pdspi_readbuf=NULL: 
3 static int sctp pdapi r2buf s2-0; 


4 uinté t * 

5 pdapi reczvrsciint sock fd, 

6 inl Arles, 

7 SA *from, 

Ei int *from len, ctrust ectp_endrevirtc *ori, int *moc flags) 
9 4 

10 int rdsz,left,at in lif; 

11 int frvlen=0; 

13 if (sctp piapi readbuf == NULL) | 

13 sctp pdapi_readbuf = (uinz8 t *)Malloc(SCT>_PDAPI_INCK 22); 
14 sctp pdapi rdbuf sz = SCT? PDAPI INCR :2; 

15 

16 at in buf - 

a Setp_recvmaq(sock_f<c, sctp_pdapi_readbuf, sczp pdepi rdzuf sz, Erom, 
18 from len, sri, mag flags; 

19 ifiat_in buf < +){ 

20 *rdler - at in bus; 

21 rcturr (NULL) ; 

22 ] 

23 while((*usc flags & MSG EDR) == 0) ( 

34 left = BCtP pdapi rczbuf ez - at in buf; 

25 if (ləfz < SCTP PDAPI NEED MORE THRESHOLD) ( 

26 sctp pdapi readbu: = 

27 reallocisctp cdapi tread”, 

28 sctp pdapi rdout sz + SCIP PDAFI INCR SZ); 
25 if (sctp_pdapi_readbuf -- NULL; [ 

30 err quiti"sctp pdapi ran out of memory") ; 

31 ) 

32 sczp pdapí rdbuf sz +- SCTP PDAPI INCR SZ; 

33 left = sctp pdapi r3bof sz - at in buf; 

34 } 

a^ rdsz = Scrp recwmsg(scck fd, &wsctp pdapi readbuf[st ir ruf], 
36 left, MULL, &frmler, NULL, meg flags;; 
7 at in buf += rdsz; 

38 j 

394 ‘rien = 4b in buf; 

40 return(sctz pdapi readbu:): 

41] 


selipiseip edapirov.c 











[23-2 “处理 部 分 递送 API 








准备 缓冲 区 


12-15 ”如 果 由 全 局 静态 指针 指向 的 接收 缓冲 区 尚未 分 配 ， 那 就 亏 
态 分 配 其 空间 并 设置 与 它 关 联 的 状态 。 


16~18 调用 sctp_recvmsg 读 入 消息 ， 它 可 能 是 某 个 消息 的 第 一 个 断 


Hs 
处 理 读 入 错误 

19-22 ”如 果 sctp_recvmsg 返 回 错误 或 EOF， 那 就 直接 返回 到 调用 
5 





本 消息 还 有 其 余 断 片 

23-24 ”如果 消息 标志 表明 sctp_recvmsg 收 取 的 不 是 一 个 完整 的 消 
上 县， 那 就 继续 收集 其 余 断 片 。 函 数 首 先 要 计算 接收 缓冲 区 中 剩余 的 空 
间 。 
检查 是 人 否 需 要 增长 缓冲 区 

25-34 “ 当 接 收 缓冲 区 中 剩余 的 空间 小 于 某 个 最 小 量 时 ， 调 
用 realloc 函 数 增长 缓冲 区 的 大 小 。 新 的 缓冲 区 大 小 是 当前 大 小 加 上 一 
个 增长 量 。 如 果 realloc 调 用 失败 ， 那 就 显示 一 个 出 错 消 恩 并 退出 。 
接收 其 余 断 片 

35-36 调用 sctp_recvmsg 读 入 本 消息 其 余 断 片 。 
采 问 移动 索引 


37-38 ”增加 缓冲 区 索引 ， 循 坏 回去 测试 是 否 已 经 读 入 本 消息 所 有 

















Br Fr 
循环 结束 


39-40 ”循环 结束 后 把 读 入 的 字 市 数 复制 到 由 调用 者 提供 的 指针 所 
指 的 整数 变量 中 ， 再 返回 指向 所 分 配 缓冲 区 的 一 个 指针 。 


图 23-3 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 





scip/sctpservüs. c 





26 fort 13 VA 

47 ler - Gizecft (struct sockaddr ini; 

“8 bzero (Sori, siscot ori) }; 

<9 readbuf - zdapi zecvmsgiscck Ed. &rd sz. 

30 (Sk *)&cliaddr, &len, &sri,&msg flags; 
ai if(rea$buf == NULL; 

32 continuc; 


seip/scipserv05.c 


图 23-3 ”使 用 部 分 递送 API 的 服务 器 程序 
ik AYE E 


29-30 ”服务 强调 用 新 的 部 分 递送 实用 函数 。 服 务 右 会 在 清理 挥 可 
能 占据 sri 变 量 的 旧 数 据 后 调用 该 函数 。 


HEE AAR 


31-32 UENIRE AGE Ea. ENT OEONEOFBUR IE TH 
VO 则 继续 。 











23.4 通知 


我 们 已 在 9.14 市 讨论 过 ， 应 用 进程 可 以 预订 7 个 通知 。 到 目前 为 
止 ， 我 们 的 SCTP 程 序 都 忽略 除 新 数据 的 收取 以 外 所 有 可 能 发 生 的 事 
件 。 本 节 的 例子 给 出 如 何 接收 并 解释 SCTP 通 知事 件 的 概 狐 。 图 23-4 给 
出 的 函数 用 于 显示 来 目 SCTP 的 任何 通知 。 我 们 还 把 10.2 节 给 出 的 服务 器 
程序 改 为 预订 所 有 事件 ， 当 收 到 一 个 通知 时 调用 这 个 新 函数 。 注 意 ， 我 
们 的 服务 器 程序 并 没有 把 通知 用 于 任何 特定 的 目的 。 


setp^rctp. dispiaveveris.c 





+ #incluie *urp.h" 


2 void 

J print notificaticn(char *notity but) 
4 

5 union sctp notification *snp: 

6 struct seip asso- change *sac; 
7 struct secip paddr change *spc; 
8 Struct sccp remote error *sre; 

9 struct sc-p send failed *ssf: 

0 struct sc-p shutdown event *sse; 


1- struct secip aàdzption event *ac; 
12 struct sc-p pdepi event *pdapi: 
13 const char *str: 

14 snp ~ imion sct notification *, notify buf: 
15 &w-tenlenp-»en hsader.cn type) { 
16 case OCTP ASCOC CIIANCE: 

17 sac = S&snp-»sn assoc change; 
18 switch(sac-»sac state) { 

19 cace SCTE COMM U2: 

z0 str = "CCMMUNICATION UP"; 
2L break ; 


a2 case SOTE COMM LOST: 


str = "COMMUNICATION LOST"; 
break : 
zase SCTE RZETART: 
str = "RESTART"; 
break: 
case SCTP SIUTDOWN COMP; 
str = "SHJTDOWN COMPLETE"; 
break: 
zasa SCTP CANT STR ASSOC: 
str = "CAN'T START Assoc’; 


break; 
defaul.: 
otr = "UNKNOAN'; 
break : 
} /* end ewitch(sac->eac_etate) */ 


printf ("SCTE ASSCC CHANGE: %s, easce-Oxtx\n", str, 
(rin-32 t)sac-»sac assoc id); 
break; 
case BSCTP FEER ànDR CHANGE: 
ope = xcrp->pn paddr change: 
awitch(spc-2sac state) | 
casa SCTP ALDX RVAILASLE: 
Str = "ADDRESS AVAILABLE" ; 
break: 
cass SCIP PLDR UNREACHABLE: 
str = "ADDRESS UNREACHABLE”; 
break: 
case SCTP ADDx REMOVED: 
sic = "ADDRESS REMOVED": 
break: 
zasa SCTP_ANDR_ATDED: 
str = "ADDRESS ADUED"; 
break: 
vase SCTP ADDR MADE PRIN: 
otr = "ADDRESS MADE TRIMARY" ; 
break + 
default: 
str - "UNKNOWN"; 
break: 
) /* end switch!spe »spc stato] */ 
printf("SCT? PEER ADDR CHANGE: ts, addr=ts, asscc-Ox$xNn", scr, 
Sock_mtop( (SA *) kape-sape_aaddr, siscofisps >apc_aadér)), 
(iuint34_t) ape-sape_assce_id) ; 
break; 
case SCTP_REMOTE_CRROR: 
sre = &srp-*sn renote error: 
printf("SCIz XEMCZE ERROR: aga2o2eUxtx error=td\n", 
(rin-32 t)sre-»sre asscc id, sve-»sre error); 
break; 
case SCTP_SEND FAILED: 
esl = Srp Ss wwend [fallwd; 
printt("ECTz SENZ FAILED: asoce-0xéx crror-%c\n", 
(in232 t)ssT-»388[ asso id, asf-»58f error); 
oreak; 
case ACTP_SDASTION INDICATION - 
Be = &snp-»sn adaption event; 
printf ("SCTP_ADAPTION_INDICATION: Oxtx\n", 
(o dnut)am-»5ai eadapriun inl); 


6i break; 


EZ case SCTP PARTIAL DELIVERY EVENT: 

E3 pdapi = &snp-»sn pdapi event. 

£4 if!pdapi-»pdapi indication == 3779 PARTIAL DRLIVSRY ABORTED) 
R5 prinrf (* SCTP PARTIAL DRLTEVERY_ARORTRD\n") ; 

ES else 

&7 printi ("unom STR PARTIAL DELIVERY AVENT Oxéx\n*", 
te pdasi-»pdapi indication); 

£9 break; 

50 cass SCTP_SHUTDORN_EVENT: 

91. ase = &snp--an shutdown event; 

22 przintz(*SCTP SHUTDOWN EVENT: assoc-DxSx^n*, 

© (uint?  lLImSE-3NSE S ARSO id) ; 

cd break: 

$s default: 

ub pzintt('Un«nowa notiticstion event type=Uxtx\n", 

v enp->sn_ heade-.sen type); 

9g } 

$9 | 


sotpisetp dispiavevenis.c 


图 23-4 ”通知 显示 实用 函数 
类 型 强制 转换 并 进行 跳 转 
14~15 TEE OE AURATA SEP RE Se RRE REINA A 
型 。 按 照 该 联合 类 型 中 的 通用 sn_header 结 构 的 sn_type 成 员 的 可 能 取 值 
进行 跳 转 。 
处 理 关 联 变动 


16-40 ”如果 函数 在 缓冲 区 中 发 现 “ 关 联 改变 ”通知 ， 则 显示 已 发 生 
的 关联 变动 的 类 型 。 


处 理 对 端 地 址 变动 


41-66 ”如 果 是 发 现 对 端 地 址 通知 ， 则 显示 经 译 码 的 地 址 事件 和 变 
动 后 的 地 址 。 


处 理 远程 错误 

67-71 如 果 函 数 发 现 远程 错误 ， 则 显示 该 错误 和 发 生 它 的 关联 的 
ID。 本 函数 不 试图 译 解 并 显示 由 远程 对 端 所 报告 的 真正 错误 。 该 信息 可 
从 sctp_remote_error 结 构 的 sre_data 成 员 获 得 。 
处 理发 送 失败 


72-716 如果 函数 解码 出 “用 送 失败 ?通知 ， 它 就 知道 消息 未 能 发 送 

















到 对 端 。 这 意味 着 : (a) 关联 正在 关闭 之 中 ， 马 上 就 会 得 到 一 个 关联 
通知 (如 果 还 没有 到 达 的 话 ) ; BR Cb) 服务 器 在 使 用 部 分 递送 扩 
展 ， 并 有 一 个 消息 未 成 功 发 送 〈( 由 设置 在 传送 上 的 限制 造成 )。 符 发送 
的 数据 实际 上 存放 在 ssf_data 成 员 中 。 

处 理 适 配 层 指示 符 


77-81 ”如 果 函 数 解码 出 适 配 层 指示 符 ， 则 显示 在 关联 建立 消息 
(CINIT 或 INIT-ACK) 中 传递 的 32 位 值 。 


处 理 部 分 递送 事件 


82-89 如 果 有 “部 分 递送 ”通知 到 达 ， 则 显示 通知 的 事件 。 目 前 唯 
-的 事件 是 部 分 递送 被 取消 。 
处 理 关 联 终止 事件 

90-94 ”如 果 函 数 解码 出 该 通知 ， 则 表示 对 端 已 经 发 出 一 个 雅致 的 
SHUTDOoWN 消 息 。 到 关联 终止 序列 完成 时 ， 通 稼 会 得 到 一 个 关联 变动 通 
Alle 


图 23-5 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 











sctp/scitpservil.c 


21 bzero(&evnts, a-zeof(ewvnts:); 

22 evils schp dala io event = 1; 

23 eyn-s.sctp assccia-ion event = 1; 

24 evn-e.£ctp address event = 1; 

25 evnzo.cctp conà failure event = i; 

26 evn=is .éctp_ pocr crror evert = 1; 

27 evn-s.sctp shutdowa event = 1; 

28 ewm-s.sctp part-al delivery eveat = 1; 

29 euncosscbp adapt iwi layer event = 1; 

30 Setsockopt (ssex_fd, IPPROTO_ SCTR, SCTP EVENTS. uevnts, £izeot(evnts)); 
31 Liscen(sock fd, .ISTENQ): 

32 tor (;;) { 

33 len = sizeof (struct scckaddr in|; 

34 rd sz = Sctp_recvmsc(sock_fd. readbuf, sizeofixeadbuf), 

35 (Sa *)àcliaddr, &len, sari, Kx flags) i 
36 if(me flags & MSS NOTIFICATION) : 

37 erint notificstion[|readbuf); 

38 continuer 

39 } 


scipisctpservóe. c 


图 23-5 ”使 用 通知 的 服务 器 程序 








进行 设置 以 接收 通知 

21-30 ”服务 器 修改 事件 设置 以 接收 所 有 通知 。 
通常 的 接收 代码 

31-85 ”这 段 服 务 器 程序 代码 没有 改动 。 
处 理 通知 

36-39 ”服务 器 检 查 msg_flags， 如 果 友 现 数据 是 通知 ， 那 就 调用 新 
的 实用 函数 print_notification 显 示 这 个 通知 ， 然 后 循环 回去 读 入 下 一 
ANB E. 

623—628 

运行 代码 

我 们 按 以 下 方式 局 动 客户 并 发 送 一 个 消 居 。 

FreeBSD-lap: ./sctpclient01 .5 

[0]Hello 

From str:1 seq:0 (assoc:c99e0):[0]Hello 


Control-D 
FreeBSD- lap: 





在 接收 关联 建立 消 轧 、 用 户 消息 和 关联 终止 消息 时 ， 我 们 的 服务 器 
程序 按 以 下 方式 显示 每 个 发 生 的 事件 。 


FreeBSD-lap: ./sctpserv06 

SCTP ADAPTION INDICATION:0x5253 

SCTP ASSOC CHANGE: COMMUNICATION UP, assoc-c99e2680h 
SCTP SHUTDOWN EVENT: assoc=c99e2680h 

SCTP ASSOC CHANGE: SHUTDOWN COMPLETE, assoc-c99e2680h 
Control-c 








可 见 ， 服 务 器 声明 了 在 传输 层 及 生 的 事件 。 


23.5 ”无 序 的 数据 


SCTP 通 常 提供 可 靠 的 有 序数 据 传输 服务 ， 不 过 也 提供 可 靠 的 无 序 
数据 传输 服务 。 指 定 MSG_UNORDERED 标 志 发 送 的 消息 没有 顺序 限制 ， 一 
到 达 对 端 就 能 被 递送 。 无 序 的 数据 可 以 在 任何 SCTP 流 中 发 送 ， 不 用 赋 
予 流 序列 号 。 图 23-6 给 出 了 为 了 使 用 无 序数 据 服务 向 回 射 服务 器 发 送 请 
求 而 对 客户 程序 所 做 的 修改 。 











selpizcip_strcli_wnic 
18 mut sz = scrlenisendline); 
19 Sctp sendmasg(sock f3. sendiine, out sz 
20 to, toler, 0, MSC_UNORDERED, 3ri.ocointo otrcam, 0, 2); 

selpiseip streli w.c 


图 23-6 RZF% i] sctp_streli žr 
使 用 无 序 服务 发 送 数据 


18-20 ”这 和 10.4 节 中 的 sctpstr_cli 孙 数 几乎 一 模 一 样 。 唯 一 的 改 
变 在 第 21 行 : 指定 MSG_UNORDERED 标 志 调 用 sctp_sendmsg 以 使 用 无 序 服务 
发 送 请 求 消息 。 通 党 情况 下 ， 一 个 给 定 SCTP 流 中 的 所 有 数据 都 标 以 序 
列 号 以 便 排 序 。 该 标志 使 相应 数据 以 无 序 方式 有 友 送 ， 即 不 标 以 序列 号 ， 
一 到 达 对 端 就 能 被 递送 ， 即 使 同一 个 SCTP 流 上 早先 发 送 的 其 他 无 序数 
据 尚 未 到 达 也 是 这 样 。 
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23.6 ”捆绑 地 址 子 集 


有 些 应 用 程序 可 能 想 要 把 主机 的 全 体 IP 地 址 的 某 个 合适 的 子 集 捆绑 
到 单个 套 接 字 。TCP 和 UDP 传统 上 只 能 捆绑 单个 地 址 ， 而 不 能 捆绑 一 个 
地 址 子 集 。bind 系 统 调用 人 允许 应 用 进程 捆绑 单个 地 址 或 通 配 地 址 。 由 
SCTP 提 供 的 新 的 sctp_bindx 函 数 调 用 允许 应 用 进程 捆绑 不 止 一 个 地 址 。 
注意 ， 所 有 这 些 地 址 必须 使 用 相同 的 端口 ， 而 且 如 果 已 经 调用 过 bind， 
那么 所 用 端口 必须 是 调用 bind 时 指定 的 端口 ， 否 则 sctp_bindx 调 用 将 失 
败 。 图 23-7 给 出 了 一 个 实用 函数 ， 它 把 作为 函数 参数 提供 的 地 址 子 集 捆 
绑 到 给 定 的 套 接 字 。 


selpiecip_bindargs.c 





1 #incluie "ur:p.h" 


2 nmn 
i s^tp bind ary list (ine sock *4, char **argv, int argo) 


5 £zrJacz addrirfo *addr; 

6 car *bindbut, "o, por-buf[10]; 

T int addzcntz2; 

8 iat lf 

9 bindbuf = (char *JCallac(esgc, s:zecfí(s-ruct sockaddr_starage)! ; 
10 p s hindbuf: 

il scrinzf(portbuf, *td", SERV PORT); 

12 for i i-U; i«argc; i++) { 

13 sdcr = Hoet cerv(aruv|i], porcbuf, AP UNSPZC, SOCK_SEDPACKET); 
14 memcpv(p, addr-2ai ed2r, addr-»ai sd3irlen!; 

15 f-eesddrinfo(add-); 

16 adcrcnt-4; 

17 p +s addr-»ai addrlen; 

18 ] 

19 Soto bindx(seck_fd, (SA v)bindbuf,addrcnz,SCTP BINDX ADO ADDR) ; 
20 frea(bindbu=} ; 

¿l return it}; 

"n^ 


LI 3 


selpiseip bindargs.c 


图 23-7 ”捆绑 一 个 地 址 子 集 的 函数 
分 配 捆绑 参数 所 需 空间 


9-10 sctp_bind_arg_list 国 数 首 先 会 分 配 sctp_bindx 调 用 的 地 址 
列表 参数 所 需 的 空间 。 注 意 sctp_bindx 能 够 混和 接受 IPv4 和 IPv6 地 址 。 
我 们 为 每 个 地 址 分 配 足 以 装 下 sockaddr_storage 结 构 的 空间 ， 尽 管 地 址 
列表 参数 是 多 个 实际 套 接 字 地 址 结构 的 紧凑 列表 (图 9-4) 。 这 么 做 导 
致 一 定 的 内 存 空间 浪费 ， 不 过 总 比 处 理 参 数 表 两 次 以 计算 出 精确 的 内 存 








空间 大 小 简单 些 。 
630 
处 理 参数 


11-18 ”把 portbuf 设 置 成 端口 的 ASCII 表 达 形 式 ， 以 便 调 

用 getaddrinfo 的 外 包 水 数 之 一 host_serv。 把 每 个 地 址 和 这 个 端口 传递 
给 host_serv， 同 时 传递 AF_UNSPEC 作 为 地 址 族 以 允许 IPv4 或 IPv6 地 址 ， 

传递 Sock_SsEQPACKET 作 为 套 接 字 类 型 指明 使 用 SCTP。 我 们 仅仅 复 

制 host_serv 返 回 的 第 一 个 套 接 字 地 址 结构 。 既 然 本 函数 的 参数 是 各 个 
地 址 的 数 串 表达 式 ， 而 不 是 可 能 关联 多 个 地 址 的 名 字 表 达 式 ， 这 么 处 理 
是 安全 的 。 随 后 释放 由 host_serv 内 包 的 getaddrinfo 分 配 的 空间 ， 递 增 
地 址 计数 ， 并 把 指针 移 到 紧凑 的 套 接 字 地 址 结构 数组 的 下 一 个 元 素 。 


调用 捆绑 函数 


19 ”该 函数 会 将 指针 重 置 到 所 捆绑 缓冲 区 的 顶端 ， 并 以 刚才 准备 的 
地 址 列表 调用 sctp_bindx。 


返回 成 功 
20-21 ”如果 函数 能 运行 全 此 ， 则 清理 所 用 缓冲 区 并 返回 成 功 。 
图 23-8 给 出 了 使 用 本 函数 的 服务 圳 程序 main 函 数 ， 它 改 为 捆绑 以 命 


令 行 参数 形式 传递 的 一 系列 地 址 。 我 们 只 是 稍 作 改动 ， 因 此 总 是 在 回 射 
请 求 消息 到 达 的 流 上 回 射 应 答 消 妃 。 





scte/scteservi7.c 
12 iftarge e 2] 
Ls err quit("Error, use +s [lisc cf addresses co bind)\n", argv[9]); 
14 sock f3 - Socket (AP_INETG, SOCK_SEQPACKET, IFPROTO_SCTP) ; 
15 ifisctp_bind_arg listisock_fd, argv + 1, argo - 1)! 
16 err sys/"Can't bind the address set"); 
17 bzero(fevnte, z2-zeof(ewntz,;); 
16 evnzs.sctp data io event = 1, 


sctp/sciescrvü?.c 








图 23-8 ”使 用 数目 可 变 的 一 组 地 址 的 服务 器 程序 
使 用 IPv6 的 程序 代码 














14 这 里 我 们 看 到 的 是 全 章 都 在 介绍 的 服务 器 程 序 ， 不 过 有 点 小 改 
动 。 在 这 里 服务 器 创建 的 是 AF_INET6 套 接 字 ， 因 此 IPv4 和 IPv6 都 能 使 
用 。 
调用 新 的 函数 


15-16 ”服务 器 调 用 新 的 捆绑 函数 ， 把 命令 行 参 数 作为 函数 参数 传 
递 给 它 处 理 。 


23.7 MAEA om AM AS 9 HL [5 E 


SCTPÆ— DZIEN, EARRA e i A a eT FH 
的 地 址 需要 使 用 不 同 于 单 宿 协议 的 机 制 。 本 节 中 我 们 把 10.4 节 的 客户 程 
序 改 为 接收 通信 开工 (communication up) 通知 ， 然 后 使 用 该 通知 显示 
关联 的 本 骨 和 对 端的 地 址 。 图 23-9 和 图 23-10 给 出 修改 后 的 客户 程序 main 
函数 和 sctp_strcli 函 数 。 图 23-11 和 图 23-12 给 出 新 增 的 函数 。 
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*cipíscipclieniü4 
16 bezeralSevnts, wizecf (monos) : 
17 evnte.ectp_dats_io_ event = 1; 
18 evnts.sctp_associaticn_event = 1; 
19 Set eockop- (sock. fd, TEPROTO_SCTP, SCTP EVENTS, Sevnts, sivernf (evrity)) ; 
20 octoctr_cli(ctdin, sock_td, (SA *) &ocrvaddr,cisest (ocrvaddr) | ; 


tetpíseipeliena 














图 23-9 ”设置 接收 通信 开工 通知 的 客户 程序 
设置 时 间 通 知 并 调用 回 射 函数 


16~20 main 函 数 有 了 些许 改动 。 客 户 程序 显 式 预订 关联 变动 通 
知 ， 通 信 开 工 通 知 属于 该 通知 类 型 。 


接着 是 sctp_strcli 函 数 的 改动 〈 见 图 23-10) ， 它 使 用 新 的 通信 处 
FH SC AA pki Zcheck notification. 














seteyscte_sirclil.c 





27 da: 


22 ler = sizeof (peeradadr) : 

23 rd ez = Sctp reovmegisock_ fd, recvline, sizeof (recvline}, 

24 (3A *)Speeraddr, Slen, &sri, &musg flags); 
25 if (rsa Flags & MSS NOTIFICATION) 

“6 cheer notification (sock ftd,recvline,rd cz); 

£7 ) while (mag flags & MSS_NOTIPICATION) ; 

28 print’ {Rr s-r:$d seq:td (assac:Ox%x):", 

49 sri.sinfo stream, sri.sinfo ssr, iu imc)sri.sinfo asscc id); 
30 printz("'$,*c", rd o2, recv ince); 


senvscip sirclil.c 








图 23-10 9 AbFHH AU sctp_strclich ZA 








21-24 客户 会 设置 套 接 字 地 址 结构 长 度 变量 ， 调 用 接收 函数 获取 
由 服务 器 回 射 的 应 答 消 妃 。 


检查 通知 


25-26 客户 会 查看 刚 读 入 的 消息 是 不 是 一 个 通知 。 若 是 则 调用 图 
23-11 所 示 的 通知 处 理 函 数 。 








setp/setp. check notifv.c 





#include “uop.h" 


void 
check_nozification (int sozk fd,char *recvline.int rd_len) 


~ 
ow oJ Dn bit bk H 
一 


union scEp nztificat. ion TM 

slrurl xl ASSOC | change Asap 

struct sockaddr -storage tca] agar; 

int rum rem, num loo; 

snp = (union scLp uoLilicatios ^)recvline: 


itisnp-»sn header.sn type == SCTP ASSOC CHANGE) ( 


11 sac = &sup-»sn ssso- change; 

12 if i(sac-»sac state == sCTP COMM UP) | 

lä (eac->eac state =s SCIP RESTART;) { 

l4 rur rem = cctp_setpaddrs isock_fd,sac-»oac_accoc_ id, Sear) ; 

15 rintt ("There are YY remote addresses and they arc:\n", num romi; 
16 sep print addresses isar, num ren; 

17 scip_freepaddrs (sar) ; 

18 rur loc = ctp zet.sddrse!'sock fd,sese->sac assoc id,feal); 

19 printf ("There are $2 local addresscs and they are:\r", rum loc); 
20 sczp print zsddrssses (sal,num loc): 

21 sczp freela3drs(sa-), 

22 } 

23 ) 

24 ] 


senpisenp check notify.c 


图 23-11 通知 处 理 函 数 
直到 读 入 数据 


27 ”如果 刚 读 入 的 是 一 个 通知 ， 那 就 继续 循环 ， 直 到 读 入 真正 的 数 
ii o 


显示 消息 
28-30 显 式 消 息 并 回 到 处 理 循 环 顶 部 ， 等 待 用户 输 入 。 


再 接着 是 check_notification 玉 数 〈 见 图 23-11) ， 它 在 某 个 关联 通 
知 到 达 之 后 显示 本 地 和 远程 两 个 端点 的 地 址 。 


632 
检查 是 人 否 为 期 望 的 通知 


9~13 ”该 函数 把 接收 缓冲 区 类 型 强制 转换 成 通用 的 通知 指针 ， 以 便 
找 出 通知 类 型 。 如 果 本 通知 是 所 关注 的 类 型 〈 即 关联 变动 类 通知 ) ， 那 
就 测试 它 是 否 为 一 个 新 的 或 重新 激活 的 关联 CSCTP. COMM UP 
BYSCTP_RESTART) 。 我 们 忽略 所 有 其 他 通知 。 


收集 并 显示 对 端 地 址 


14-17 “调用 sctp_getpaddrs 汇 集 远 程 地 址 列表 ， 然 后 显示 地 址 数 
目 ， 并 调用 图 23-12 所 示 的 地 址 显示 实用 函数 sctp_print_addresses 显 示 
各 个 地 址 。 完 成 之 后 调用 sctp_freepaddrs 释 放 由 sctp_getpaddrs 分 配 的 
资源 。 





*cip/scip print. adars.c 
1 #include "uap.h" 

2 void 

2 Sctp prirt aódresses(struct scckadd-z storace *3sddrs, int num; 


4 

5 struct sockaddr storage “ss; 
6 int i, salen; 

7 88 = acdrs; 

e for {i=0; i«num; i++! | 
3 printf("$sWn", Sock ntop((S^ *)ss. salen)!; 
10 ifdef HAVE SOCKADDR SA LEN 


11 salen = AS-»558 len; 


13 ewirch(ss- sss_ family: i 


14 sase As INET: 

15 salen = sizeof [ELEUCL sockaddr in}; 

16 prea; 

17 $ifdct IEV6 

16 case A7 INET6 : 

19 salen - sizeof [struct sockaddr_iné), 

20 prea, 

21 #endil 

22 Gefaa c: 

23 ere quit('sctp print addresses: unknown BF"): 
24 break; 

25 

36 fendif 

27 zg = lbtruct socksdir storage *;l[char *)ec + calen), 
28 ] 

29 ] 


*cipiseip vrini adars.c 


图 23-12 “地址 列表 显示 函数 


收集 并 显示 本 地 地 址 


18~21 调用 sctp_getladdrs 收 集 本 地 地 址 列表 ， 并 显示 地 址 数目 和 
各 个 地 址 本 身 。 在 通知 处 理 函 数 使 用 完 这 些 地 址 后 调用 sctp_freeladdrs 
释放 由 sctp_getladdrs 分 配 的 资源 。 


最 后 是 sctp_print_addresses 国 数 〈 见 图 23-12) ， 它 显示 
由 sctp_getpaddrs 或 sctp_getladdrs 返 回 的 地 址 列表 。 


处 理 每 个 地 址 
7-8 根据 调用 者 指定 的 地 址 数目 过 历 每 个 地 址 。 
显示 地 址 


9 调用 sock_ntop 显 示 地 址 。 该 函数 能 够 显示 系统 文 持 的 任何 套 接 
字 地 址 结构 格式 。 
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确定 地 址 大 小 

10-26 “地址 列表 是 一 个 紧 凌 的 套 接 字 地 址 结构 数组 ， 而 不 是 单 
一 sockaddr_storage 结 构 的 数组 。 这 是 因为 sockaddr_storage 结 构 太 
大 ， 用 它 在 内 核 和 进程 之 间 传 递 地 址 过 于 浪费 内 存 空间 。 如 果 套 接 字 地 
址 结构 上 自 带 长度 成 员 ， 那 就 直接 使 用 其 值 作为 本 结构 的 长 上 度 ; 否则 就 根 
据 地 址 族 选择 长 度 ， 若 不 是 已 知 地 址 族 则 显示 一 个 出 错 消息 并 退出 。 
移动 地 址 指针 


2; ”根据 所 确定 的 地 址 大 小 前 向 移动 地 址 指针 ， 指 向 下 一 个 待 处 理 
的 地 址 。 
运行 代码 

我 们 按 以 下 方式 启动 客户 并 发 送 一 个 消息 : 


FreeBSD-lap: ./sctpclient01 .5 

[0]Hi 

There are 2 remote addresses and they are: 
5:9877 





127.0.0.1:9877 
There are 2 local addresses and they are: 


.5:1025 

127.0.0.1:1025 

From str:0 seq:0 (assoc:c99e2680): [0]Hi 
Control-D 

FreeBSD- lap: 


23.8 ”给 定 IP 地 址 找 出 关联 ID 


在 23.7 节 所 做 的 客户 程序 改动 中 ， 客 户 使 用 关联 通知 事件 引发 地 址 
列表 的 获取 。 这 类 通知 在 sac_assoc_id 成 员 中 给 出 了 关联 标识 ， 因 此 可 
ds ee 然而 如 果 应 用 进程 没有 在 跟踪 关联 标识 ， 而 

只 知道 一 个 对 端 地 址 ， 它 如 何 才 能 找到 它 的 关联 号 呢 ?图 23-13 给 出 
ispum 前 IP 地 址 转换 成 一 个 关联 TD 的 简单 函数 。23.10 节 给 出 的 服务 
器 程序 将 使 用 本 函数 。 











seipsctp add to aisocid.c 
1 #incluje "ugp. h" 


2 actp_asscc_t 
3 sctp address tc associd(int scck fd, struct sockaddr *sa, socklen_t salen! 
4 | 
struct sctp paddrparams sp; 
6 int Siz; 


j siz = sizecf(struc- setp paddrparams) ; 
a bzero(&sp.siz); 


9 memcpv(&sp.spp address, ss, salen) 
10 MA opt infc;jsock fd, 0, SCCP enum _ADDR_PARAMS, &sp, &Siz, 


11 re n(sp.spp assoc id); 


sciposetp. addr ta associs.c 


图 23-13 ”从 下地 址 到 关联 ID 的 转换 函数 


初始 化 
7-8 ”初始 化 所 用 的 sctp_paddrparams 结 构 。 
复制 地 址 


9 把 作为 参数 传 入 的 套 接 字 地 址 结构 按照 同时 传 入 的 长 度 复制 
到 sctp_paddrparams 结 构 中 。 
获取 套 接 字 选 项 值 


10 ”通过 获取 ScTP_PEER_ADDR_PARAMS 套 接 字 选项 值 取 得 对 端 地 址 参 
数 。 既 然 该 套 接 字 选 项 需要 既往 内 核 复制 入 又 从 内 核 复 制 出 参数 ， 因 此 
我 们 不 用 getsockopt， 而 用 sctp_opt_info。 本 调用 返回 当前 心 搏 间 














隔 、scTP 实 现 认 定 对 端 地 址 不 可 达 所 需 的 最 大 重 传 次 数 以 及 最 为 重要 的 
关联 ID。 我 们 不 检查 本 调用 的 返回 值 ， 如 果 调 用 失败 ， 那 就 返回 0。 


11 把 关联 ID 返回 给 调用 者 。 如 果 刚 才 的 调用 失败 ， 早 先 对 
sctp_paddrparams 结 构 的 清 零 将 确保 调用 者 得 到 值 为 0 的 关联 ID。 关 联 
ID 不 允许 为 0， 不 过 SCTP 也 可 以 使 用 0 值 关联 ID 作为 没有 关联 的 指示 。 


23.9 心 搏 和 地 址 不 可 达 


SCTP 提 供 类 似 TCP 的 保持 存活 选项 的 心 搏 机 制 。SCTP 的 心 搏 机 制 
默认 就 开启 。 应 用 进程 可 以 使 用 23.8 节 用 到 的 同一 个 套 接 字 选项 设置 某 
个 对 端 地 址 的 心 捕 间隔 和 出 错 门限 。 出 错 门 限 是 认定 这 个 对 端 地 址 不 可 
达 之 前 必须 发 生 的 心 搏 遗 失 亦 即 超时 重 传 次 数 。 由 心 搏 检测 到 该 对 端 地 
址 再 次 变 为 可 达 时 ， 该 地 址 重新 开始 活跃 。 


应 用 进程 可 以 葵 止 心 搏 ， 不 过 要 是 没有 心 搏 的 话 ，SCTP 将 无 法 检 
测 一 个 被 认定 不 可 达 的 对 端 地 址 再 次 变 为 可 达 。 没 有 用 户 干预 ， 这 些 地 
址 就 不 能 回 到 活跃 状态 。 


sctp_paddrparams 结 构 中 的 心 捕 间隔 字段 是 spp_hbinterval。 其 值 
为 ScTP_NO_HB 即 0 表示 荣 止 心 搏 。 其 值 为 ScTP_ISSUE_HB 即 gxffffffff 表 
示 一 经 请 求 立 即 心 搏 。 任 何其 他 值 以 虹 秒 为 单位 设置 心 搏 间 隅 。 访 值 加 
上 当前 重 传 计时 器 的 值 ， 再 加 上 一 个 随机 的 拌 动 值 束 构成 了 心 搏 的 间隔 
时 间 。 图 23-14 给 出 的 小 函数 可 用 于 针对 某 个 对 端 地 址 设置 确切 的 心 搏 
间隔 ， 或 请 求 立即 心 搏 一 次 ， 或 禁止 心 搏 。 注 意 ， 把 sctp_paddrparams 
结构 中 的 重 传 次 数 成 员 spp_pathmaxrxt 设 置 为 0 表示 保持 其 当前 值 不 


AS 
o 
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sctp/sctp. modi. a.c 

二 d$include "ur.p. h^" 

2 int 

3 hoartbcat zcetion(irt sock zd, struct sockaddr *52, occ«len t salen, 
4 u int value! 

5 1 

6 etruct cip pacdrparans sp; 

7 int siz; 

8 bzero(&sp,sizeot(sp)) ; 

9 Sz.spp hbinterval ~ value; 
10 menzpy!(caddr t)&en.zpp addrece, sa, galen): 
12 Sstsockop-isock £d, IPSROTO SCTP 
12 SCTP SE3R ADOR PRRAMS, &sp, sizenf (sp)); 


13 raturni0); 
14 : 
setpisetp modify at.c 





图 23-14 js dil) SE HI ES BL 





清 零 sctp_paddrparams 结 构 并 复制 心 捕 间隔 
7-8 清 零 sctp_paddrparams 结 构 ， 确 保 不 改动 心 搏 机 制 的 任何 非 关 
注 参 数 。 把 调用 者 给 定 的 心 搏 间隔 值 复制 到 该 结构 中 ， 可 以 
是 ScTP_ISSUE_HB、ScTP_NO_HB 或 一 个 确切 的 心 搏 间隔 。 
设置 对 端 地 址 


10 把 实施 心 搏 的 对 端 地 址 复制 到 sctp_paddrparams 结 构 中 ， 以 便 
SCTP 实 现 了 解 我 们 布 望 它 癌 哪个 地 址 发 送 心 搏 请 求 。 


执行 所 需 行 为 
11-12 ”调用 setsockopt 执 行 用 户 请 求 的 行为 。 


23.10 ”关联 剥离 


至 此 我 们 一 直 在 关注 SCTP 提 供 的 一 到 多 式 接口 。 一 到 多 式 接口 相 
比 更 为 传统 的 一 到 一 式 接口 存在 以 下 优势 。 


只 需 维护 单个 描述 符 。 

允许 编写 简单 的 迭代 服务 喜 程 序 。 

允许 应 用 进程 在 四 路 握手 的 第 三 个 和 第 四 个 分 组 发 送 数据 ， 只 需 使 
用 sendmsg 或 sctp_sendmsg 隐 式 建 立 关 联 就 行 。 

无 需 跟踪 传输 状态 。 也 就 是 说 应 用 进程 只 需 在 套 接 字 朱 述 符 上 执行 
一 个 接收 调用 就 可 以 接收 消息 ， 之 前 不 必 执 行 传统 的 connect 

或 accept 调 用 。 


637 


然而 一 到 多 式 接口 却 存在 一 个 主要 缺陷 : 造成 难以 编写 并 发 服务 器 
程序 “用 线程 或 派生 子 进程 ) 。 该 缺陷 促成 增设 sctp_peeloff 国 数 。 该 
函数 取 一 个 一 到 多 式 套 接 字 描述 符 和 一 个 关联 ID， 返 回 一 个 新 的 仅仅 附 
以 给 定 关 联 的 一 到 一 式 套 接 字 描 述 符 《〈 再 加 上 已 经 排队 在 该 关联 上 的 通 
知 和 数据 》。 原 始 的 一 到 多 式 套 接 字 继续 开放 ， 它 代表 的 其 他 关联 均 不 


受 此 影响 。 


该 套 接 字 然后 可 以 递交 给 某 个 专门 的 线程 或 子 进程 加 以 处 理 ， 从 而 
实现 并 发 服务 器 。 我 们 把 10.2 节 给 出 的 服务 器 程序 改 为 : 先 处 理 某 个 客 
户 的 第 一 个 请 求 消息 ， 再 使 用 sctp_peeloff 和 剥离 出 处 理 该 客户 的 一 个 套 
接 字 ， 派 生 一 个 子 进程 后 由 子 进程 调用 5.3 节 介绍 的 str_echo 函 数 ， 如 图 
23-15 所 示 。 我 们 调用 23.8 节 给 出 的 实用 函数 把 所 接收 消息 的 源 地 址 转换 
成 关联 ID。 当 然 这 个 关联 ID 也 出 现在 sri.sinfo_assoc_id 中 ， 我 们 这 人 么 
转换 只 是 为 了 展示 这 个 从 耻 地 址 确定 关联 卫 的 方法 。 派 生子 进程 后 ， 服 
务 嚣 父 进程 循环 回去 处 理 来 自 下 一 个 客户 的 请 求 。 














sctpi*ctpserv. Orke 





23 fot ( iu 1 

24 len - sizeof(struct sockaddr in) 

23 rd sz - Sctp recvmsq(sock fd, -eadbuf, sizeof iveadbuf), 
26 ISA *)&c.ieddr, &len, &sri, ssa flags); 
27 Sctp serdrsg(sock fd, readbuf, rd sz, 

28 [SR *)àcliaddr, len, 

23 sri.sinfo ppid. 

30 sri.sinfo_flags, sri .sinfo_stream, 6, 0); 
51 assor = sot p adüress to assi disk. fd, (SA *j&cliakir, len); 
12 if ((1nr]ass^c == 0) | 

33 arr rat("Can'- get association id"); 

38 continue; 

35 $ 

35 conntd = acto peelo-f.Gcc« f3, 88890), 

37 if (conrfd «= -1, | 

38 arr rst("gctp peeloff fails"); 

39 continue; 

49 } 

41 ifi(childsid = fork()) == 0] | 

42 Close (sock_fd), 

43 str echo(connfd!;: 

44 exit[0); 

45 | else { 

45 TClase(cocnfi: ; 

47 | 

48 ) 





图 23-15 ”一 个 并 发 SCTP 服 务 器 程序 
接收 并 处 理 来 自 客户 的 第 一 个 消 忆 
26-30 ”接收 并 处 理由 某 个 客户 发 送 的 第 一 个 消息 。 
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把 地 址 转换 成 关联 ID 

31-35 调用 图 23-13 给 出 的 函数 把 该 消息 的 源 地 址 转换 成 一 个 关联 
ID。 如 果 无 法 取得 该 关联 ID， 那 束 跳 过 它 而 不 试图 派生 子 进程 继续 处 
理 。 
剥离 出 关联 

36-40 ”调用 sctp_peeloff 把 与 该 客户 的 关联 剥离 到 自己 的 一 到 一 式 
套 接 字 中 。 这 会 形成 一 个 可 以 被 传递 到 先前 的 TCP 版 str_echo 函 数 的 一 
对 一 式 套 接 字 。 


WKE LME T ERE 





41-47. 派生 一 个 子 进 程 ， 让 该 子 进程 执行 这 个 新 套 接 字 上 的 所 有 
后 续 工 作 。 


23.11 定时 控制 

SCTP 有 许多 用 户 可 调 的 控制 量 ， 它 们 都 通过 我 们 在 7.10 节 讨论 过 的 
套 接 字 选 项 访问 。 我 们 在 本 节 讨 论 一 些 定时 控制 量 ， 它 们 影响 SCTP 端 
点 需 多 久 才 能 声称 某 个 关联 或 某 个 对 端 地 址 已 经 失效 。 


SCTP 有 7 个 确定 失效 检测 定时 的 控制 量 ， 如 图 23-16 所 示 。 

















exto rin 最 小 重 具 超 时 1000 —[ 毫秒 
srto wax 最 大 重 千 超时 60000 a Pr 
&rto initia. gj uc d 3000 毫秒 
sinit max init timeo INIT EL Fae di (e) IET 8C Sp 
sinit max attempts INIT 的 最 太 重 传 次 数 8 Az 
cpp pathmaxrxt 每 个 地 址 的 最 大 重 传 次 数 5 次 数 
sasoc asocmaxrxt f ^O A EP o 10 次 数 





图 23-16 ”SCTP 中 控制 定时 的 字段 














这 些 控制 量 影 响 SCTP 的 失效 检测 速度 或 重 传 尝试 次 数 ， 可 以 认为 
E 0 
种 情形 。 


(1) 一 个 SCTP 端 点 试图 打开 与 茶 个 对 端的 关联 ， 而 该 对 端 主机 已 经 
断 开 与 网 络 的 物理 连接 。 


(2) 两 个 多 窒 的 SCTP 端 点 主机 在 交换 数据 ， 其 中 之 一 在 通信 过 程 中 
天 机。 由 于 防火 墙 的 过 小 ， 对 端 主机 没有 收 到 任何 ICMP 消 息 。 
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第 一 种 情形 下 ， 试 图 打开 关联 的 系统 首先 把 RTO 定 时 器 设置 
成 srto_initial 值 即 3000 ms。 发 生 一 次 超时 后 ， 它 重 传 INIT 消 息 并 把 
RTO 定 时 器 倍增 成 6000 ms。 这 样 的 行为 将 持续 到 已 经 发 送 了 
sinit_max_attempts 值 即 8 次 INIT 消 息 ， 且 每 次 传送 都 发 生 超 时 为 止 。 
RTO 和 定时 器 的 倍增 以 sinit_max_init_timeo 值 即 60 000 ms 这 一 上 限 。 








此 SCTP 从 开始 发 送 INIT 消 息 到 宣告 潜在 对 端 主机 不 可 达 所 花 的 总 时 间 
为 3+6+12+24+48+60+60+60=273 s. 


我 们 可 以 旋 动 一 些 手柄 或 手柄 组 合 来 缩短 或 延长 这 个 时 间 。 证 我 们 
聚焦 在 可 用 于 把 这 个 时 间 缩短 到 譬如 270 s 的 两 个 参 
数 sinit_max_attempts 和 sinit max init timeo. 方法 之 一 是 减少 
由 sinit_max_attempts 规 定 的 重 传 次 数 。 如 采 把 重 传 次 数 减少 到 4 次 ， 失 
效 检测 时 间 将 缩短 到 45s， 约 是 默认 设置 给 出 的 时 间 的 1/6。 这 个 方法 的 
缺点 是 增加 了 发 生 如 下 情况 的 概率 : 对 端 主机 可 达 ， 不 过 由 于 网 络 丢失 
或 对 端 主机 过 载 等 原因 ， 我 们 声称 它 不 可 达 。 


方法 之 二 是 缩短 由 sinit_max_init timeo 规 定 的 INIT 消 息 最 大 RTO 
值 。 如 果 把 最 大 RTO 降 低 到 20 s， 失 效 检 测 时 间 将 缩短 到 121 s， 不 到 原 
初 值 的 一 半 。 这 个 方法 的 缺点 是 过 低 的 最 大 RTO 可 能 导致 过 密 地 重 传 
INIT 消 息 。 


第 二 种 情形 下 ， 假 设 一 个 端点 有 2 个 地 址 IP-A 和 IP-B， 男 一 个 端点 
也 有 2 个 地 址 IP-X 和 IP-Y。 如 果 其 中 之 一 因 关 机 而 变 得 不 可 达 【〔 假 设 数 
据 原 先 由 现 未 关机 的 那个 端点 发 送 ) ， 发 送 端点 将 对 于 每 个 对 端 地 址 相 
继 发 生 超时 ， 开 始 为 srto_min 值 〈 默 认为 1 s) ， 以 后 一 直 倍增 到 对 于 每 
个 对 端 地 址 都 达到 上 限 的 srto_max 值 〈 默 认为 60 s) 。 访 端点 将 重 传 关 
联 的 sasoc_asocmaxrxt 值 〈 默 认为 10 次 重 传 ) 。 


发 送 端点 经 历 的 超时 总 和 为 1 (IP-A) +1 (P-B) +2 (P-A) 
+2 (IP-B) +4 (IP-A) +4 (IP-B) +8 (IP-A) +8 (IP-B) +16 (IP-A) 
+16 (IP-B) =62 s。srto_max 没 有 起 上 限 作 用 ， 因 为 在 它 能 够 起 作用 之 
前 关联 重 传 次 数 已 经 达到 sasoc_asocmaxrxt。 让 我 们 再 次 聚焦 在 可 用 于 
影响 这 些 超时 和 最 终 失 效 检 测 时 间 的 两 个 参数 : 修改 sasoc_asocmaxrxt 
值 〈 默 认为 10) 可 以 减少 重 传 尝试 次 数 ， 修 改 srto_max 值 (默认 为 60 
s) 可 以 降低 最 大 RTO。 如 果 把 srto_max 设 置 成 10 s， 检 测 时 间 束 能 减少 
12 s， 结 果 为 50 s。 如 果 把 sasoc_asocmaxrxt 设 置 成 8， 检 测 时 间 就 会 缩 
短 到 30 s。 第 一 种 情形 下 提 及 的 缺陷 同样 适用 于 本 情形 ; 持续 时 间 较 短 
的 可 恢复 网 络 故障 或 远程 系统 过 载 可 能 导致 工作 中 的 关联 被 自动 拆除 。 
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在 众多 定时 控制 量 中 ， 我 们 不 建议 降低 最 小 RTO Certo min) 。 跨 
因特网 通信 时 降低 该 值 会 导致 以 更 短 的 间隔 重 传 消 妃 ， 从 而 过 度 消 耗 因 
































特 网 基础 设施 资源 。 在 私 用 网 络 上 调 低 该 值 尚 可 接受 ， 然 而 对 于 大 多 数 
应 用 来 说 ， 该 值 不 宜 减 少 。 


应 用 进程 在 旋 动 这 些 定时 手柄 之 前 必须 考虑 以 下 大 干 因 素 。 





。 应 用 进程 需要 以 多 快 的 速度 进行 失效 检测 ? 

。 应 用 进程 运行 在 整个 端 对 端 路 径 相 对 因特网 而 言 更 广为人知 且 变 化 
更 少 的 私 用 网 络 上 吗 ? 

。 虚假 的 失效 检测 会 有 什么 后 果 ? 


应 用 进程 才能 恰当 地 调整 SCTP 的 定时 参 








23.12 {yi UL H SCTP TCP 


SCTP 最 初 开发 目的 是 跨 因 特 网 传输 电话 呼叫 控制 信 令 。 然 而 在 其 
开发 过 程 中 ， 其 适用 范围 被 扩展 到 自 成 一 个 通用 传输 协议 的 程度 。 它 提 
供 TCP 的 大 多 数 特性 ， 又 增设 广泛 的 突 新 传输 层 服 务 。 多 数 应 用 程序 可 
以 从 中 受益 。 因 此 何 时 值得 改 用 SCTP 呢 ? 我们 先 列 出 SCTP 的 益处 。 


(1) SCTP 直 接 支 持 多 窒 。 一 个 端点 可 以 利用 它 的 多 个 直接 连接 的 网 
络 获 得 额外 的 可 靠 性 。 除 了 移植 到 SCTP 外 ， 应 用 程序 无 需 采 取 其 他 行 
为 束 可 以 自动 使 用 SCTP 的 多 和 窒 服 务 。 关 于 SCTP 的 多 窒 细 市 参见 
[ Stewart and Xie 2001] 的 7.4 节 。 


(2) HY DYE BR Am SESE. DAS ERE AY UUERISPAPSCTPARBO Te 
输 多 个 数据 元 系 。 同 一 个 关联 内 ， 一 个 流 中 的 数据 丢失 不 会 影响 其 他 并 
行 的 流 中 的 数据 流动 10.531) 。 


(3) 保持 应 用 层 消 妃 边界 。 许 多 应 用 发 送 的 并 不 是 字 节 流 ， 而 是 消 
恩 。SCTP 保 持 应 用 进程 发 送 的 消 妃 边界 ， 从 而 略微 简化 了 应 用 程序 开 
发 人 员 的 任务 。 使 用 SCTP 无 需 在 字 节 流 中 标记 消 姑 边界 ， 也 无 需 提供 
在 接收 端 从 字 节 流 中 重 构 出 消息 的 特殊 处 理 代码 。 


(4) ”提供 无 序 消息 服务 。 对 于 茶 些 应 用 ， 消 息 的 到 达 顺 序 无 关 紧 
要 。 这 样 的 应 用 出 于 可 靠 性 要 求 一 般 使 用 TCP， 不 过 没有 顺序 要 求 的 消 
恩 还 是 将 按照 发 送 站 提交 顺序 递送 到 接收 问 。 其 中 任何 一 个 消息 的 丢失 
将 导致 并 非 不 可 避免 的 头 端 阻 蹇 ， 即 后 续 消 妃 即 使 到 达 也 不 能 提前 无 序 
于 避免 这 个 问题 ， 使 得 应 用 需求 与 传输 服 
DLAC » 
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(5) 有 些 SCTP 实 现 提供 部 分 可 靠 服 务 。 这 个 特性 允许 SCTP 发 送 端 为 
每 个 消息 指定 一 个 生命 期 ， 使 用 的 是 sctp_sndrcvinfo 结 构 的 
sinfo_timetolive 字 段 。 (这 个 生命 期 不 同 于 IPv4 的 TITIL 或 IPv6 的 跳 
限 ， 它 是 真正 的 时 间 长 度 。) 当 源 端点 和 目的 端点 都 支持 本 特性 时 ， 时 
间 敏 感 的 过 期 数据 可 改 由 传输 层 而 不 是 应 用 进程 丢弃 (该 数据 可 能 发 送 
过 ， 不 过 丢失 了 ) ， 从 而 在 面临 网 络 阻 寨 时 优化 数据 的 传输 。 


(6) SCTP 以 一 到 一 式 接口 提供 了 从 TCP 到 SCTP 的 简易 移植 手段 。 访 
接口 类 似 典 型 的 TCP 接 口 ， 因 此 稍 加 修改 ， 一 个 TCP 应 用 程序 就 能 移植 
成 SCTP 应 用 程序 。 


(7) SCTP 提 供 TCP 的 许多 特性 ， 包 括 正面 确认 、 重 传 丢失 数据 、 重 
排 数据 、 窗 口 式 流 量 控制 、 慢 启动 、 拥 塞 避免 、 选 择 性 确认 ， 没 有 包括 
进来 的 两 个 例外 特性 是 半 关 闭 状态 和 紧急 数据 。 


(8 SCTP 提 供 许多 供应 用 进程 配置 和 调整 传输 服务 ， 以 便 基于 关联 
多 配 其 需求 的 挂钩 ( 见 本 革 和 7.10 市 )。 这 些 挂钩 提供 的 灵活 性 配合 民 
好 的 默认 设置 ( 供 不 希 望 调整 传输 服务 的 应 用 进程 使 用 ) ， 为 应 用 程序 
提供 了 TCP 难 以 企及 的 控制 能 力 。 


SCTP 不 提供 的 TCP 特 性 之 一 是 半 关 闭 状态 。 当 一 个 应 用 进程 关闭 
了 菏 个 TCP 连 接 的 目 身 一 半 却 仍然 允许 对 站 发 送 数据 时 ， 该 连接 进入 半 
关闭 状态 (6.675) ， 同 时 告知 对 端 本 站 已 经 发 送 完 数据 。 使 用 本 特性 
的 应 用 不 是 很 多 ， 因 此 在 SCTP 开 发 阶段 ， 本 特性 被 认为 不 值得 增加 到 
SCTP 中 。 确 实 需 要 本 特性 的 应 用 程序 移植 到 SCTP 时 不 得 不 修改 应 用 层 
协议 ， 在 应 用 数据 流 中 提供 这 个 告知 EOF 的 手段 。 有 些 个 案 如 此 修改 协 
议 并 非 轻而易举 之 事 。 


SCTP 不 提供 的 TCP 特 性 之 二 是 紧急 数据 。 使 用 分 离 的 SCTP 流 传输 
M MADE 的 紧急 数据 的 语义 ， 不 过 难以 准确 复制 这 个 特 


不 能 从 SCTP 中 真正 获 益 的 是 那些 确实 必须 使 用 面向 字 节 流传 输 服 
务 的 应 用 ， 如 telnet、rlogin、rsh、ssh 等 。 对 于 这 样 的 应 用 ，TCP 能 
够 比 SCTP 更 高 效 地 把 字 市 流 分 割 分 装 到 TCP 分 节 中 。SCTP 忠 实地 保持 
消息 边界 ， 当 每 个 消息 的 长 度 仅仅 是 一 个 字 节 时 ，SCTP 封 装 消息 到 数 
据 块 中 的 效率 非常 之 低 ， 导 致 过 多 的 开销 。 

总 之 ， 许 多 应 用 可 以 考虑 改 用 SCTP 重 新 实现 ， 前 提 是 SCTP 能 够 在 
Unix 平 台 上 得 以 普及 。 应 该 看 到 应 用 可 以 从 SCTP 的 特殊 特性 中 获 益 ， 
要 是 SCTP 得 到 普及 ， 那 就 不 必死 旧 着 TCP 了 J 了。 
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23.13 “人 小结 


在 本 章 中 ， 我 们 学 习 了 SCTP 的 目 动 关闭 机 制 ， 了 解 了 怎样 使 用 它 
限制 一 到 多 式 套 接 字 中 可 能 存在 的 采 置 关联 。 编 写 了 利用 部 分 递送 API 
接收 过 大 消息 的 简单 实用 函数 。 通 过 一 个 单纯 显示 通知 的 简单 实用 函数 
说 明了 应 用 进程 可 以 译 解 在 传输 中 发 生 的 事件 。 我 们 还 简单 查看 了 如 何 
发 送 无 序 的 数据 以 及 捆绑 一 个 地 址 子 集 。 我 们 还 碍 看 了 如 何 获悉 一 个 关 
联 的 本 地 端点 地 址 和 远程 并 点 地 址 ， 并 提供 了 从 一 个 对 端 地 址 到 一 个 关 
联 ID 的 转换 方法 。 


心 捕 (在 TCP 中 称 为 保持 存活 〉 在 SCTP 关 联 上 默认 就 在 交换 。 我 
们 通过 一 个 简单 实用 函数 查看 了 如 何 控制 这 个 特性 。 我 们 还 查看 了 如 何 
使 用 sctp_peeloff 系 统 调用 从 一 个 一 到 多 式 套 接 字 剥离 出 一 个 关联 并 自 
成 一 个 一 到 一 式 套 接 字 ， 并 通过 例子 分 析 了 如 何 由 此 编写 并 发 式 服 务 器 
程序 。 我 们 讨论 了 调整 SCTP 定 时 参数 前 需 考虑 的 因素 。 最 后 是 改 用 
SCTP 需 考虑 的 因素 。 











习题 
23.1 编写 一 个 客户 程序 ， 用 于 测试 23.3 节 中 使 用 部 分 递送 API 的 服 
务 器 程序 。 


23.2 除了 发 送 很 大 的 消息 给 23.3 节 中 的 服务 器 程序 外 ， 还 有 什么 
其 他 方法 可 用 于 激发 该 程序 中 的 部 分 递送 API? 


23.3 ”重新 编写 部 分 递送 API 服 务 嚣 程序， 使 得 它 能 够 处 理 部 分 递 
送 API 通 知 。 


23.4 哪些 应 用 可 从 使 用 无 需 数据 服务 中 获 普 呢 ? 不 能 获 区 的 又 是 
哪些 应 用 ? 请 给 出 解释 。 


23.5 ”如 何 测 试 地 址 子 集 捆绑 服务 器 程序 ? 

23.6 ”假设 你 的 应 用 系统 运行 在 一 个 通过 局 域 网 互 连 起 来 的 私 用 网 
络 上 ， 而 且 所 有 服务 器 进程 和 客户 进程 都 运行 在 多 宿主 机 上 。 为 了 确保 
在 2 秒 钟 或 以 内 完成 失效 检测 ， 需 要 调整 哪些 定时 参数 ? 
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第 24 章 ”市 外 数据 


24.1 概述 


许多 传输 层 有 带 外 数据 (out-of-band data) WMG, EAM HARA 
经 加 速 数据 (expedited data) 。 其 想法 是 一 个 连接 的 某 端 发 生 了 重要 的 
事情 ， 而 且 该 端 希望 迅速 通告 其 对 端 。 这 里 “迅速 ”意味 着 这 种 通知 应 该 
在 已 经 排队 等 竺 发送 的 任何 “普通 ”( 有 时 称 为 “ 带 内 ”) 数据 之 前 发 送 。 
也 束 是 说 ， 带 外 数据 被 认为 具有 比 普通 数据 更 高 的 优先 级 。 上 融 外 数据 并 
而 是 被 映射 到 已 有 的 连接 


不 幸 的 是 ， 一 旦 超越 普通 概念 光临 现实 世界 ， 我 们 发 现 几 乎 每 个 传 
输 层 都 各 自 有 不 同 的 带 外 数据 实现 。 而 UDP 作为 一 个 极端 的 例子 ， 没 有 
实现 带 外 数据 。 在 本 章 中 ， 我 们 只 关注 TCP 的 带 外 数据 模型 ， 并 提供 众 
多 例子 说 明 套 接 字 API 如 何 处 理 带 外 数据 ， 并 描述 了 telnet、rlogin 和 
FTP 等 应 用 是 如 何 使 用 带 外 数据 的 。 除 了 这 样 的 远程 非 活 跃 应 用 之 外 ， 
几乎 很 少 有 使 用 到 带 外 数据 的 地 方 。 


24. ”TCP 带 外 数据 


TCP 并 没有 真正 的 带 外 数据 ， 不 过 提供 了 我 们 接着 讲解 的 紧急 模式 
(urgent mode) 。 假 设 一 个 进程 已 经 往 一 个 TCP 套 接 字 写 出 N 字 节 数 
据 ， 而 且 TCP 把 这 些 数据 排队 在 该 套 接 字 的 发 送 缓冲 区 中 ， 等 着 发 送 到 
0 MM M UDIN 

FH. 
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套 接 字 发 送 缓冲 区 

要 发 送 的 第 一 个 字 节 要 发 送 的 最 后 一 个 字 蔬 
图 24-1 “含有 待 发 送 数据 的 套 接 字 发 送 缓冲 区 


该 进程 接着 以 MsG_ooB 标 志 调 用 send 函 数 写 出 一 个 含有 ASCII 字 符 a 
的 单字 节 带 外 数据 : 


send(fd, "a", 1, MSG 00B); 





TCP 把 这 个 数据 放置 在 该 套 接 字 发 送 绥 冲 区 的 下 一 个 可 用 位 置 ， 并 
把 该 连接 的 TCP 紧 急 指针 (urgent pointer) 设置 成 再 下 一 个 可 用 位 置 。 
pea 了 此 时 的 套 接 字 发 送 缓冲 区 ， 并 且 把 带 外 字 节 标记 
为 <OOB”。 








套 接 字 发 送 缓冲 区 


——— 


! ! 


要 发 送 的 第 一 个 字 节 归 发 送 的 最 TCP 崇 急 指 针 
后 一 个 字 刷 


图 24-2 ”应 用 进程 写 入 1 字 节 带 外 数据 后 的 套 接 字 发 送 缓冲 区 


TCP 紧 急 指针 对 应 一 个 TCP 序 列 写 ， 它 是 使 用 MSG_o00B 标 志 写 出 的 最 
后 一 个 数据 字 节 〔 即 带 外 字 节 〉 对 应 的 序列 号 加 1。 正 如 TCPv1 第 292~ 
296 页 所 述 ， 这 是 一 个 历史 性 的 决断 ， 现 在 被 所 有 实现 所 模仿 。 只 要 发 
送 端 TCP 和 接收 端 TCP 在 TCP 紧 急 指 针 的 解释 上 达成 一 致 ， 就 不 会 有 问 


Eo 


给 定 如 图 24-2 所 示 的 TCP 套 接 字 发 送 缓冲 区 状态 ， 发 送 端 TCP 将 为 
待 发送 的 下 一 个 分 节 在 TCP 首 部 中 设置 URG 标 志 ， 并 把 紧急 偏 移 
Curgent offset〉 字 上 段 设置 为 指 问 市 外 字 节 之 后 的 字 节 ， 不 过 该 分 节 可 能 
舍 也 可 能 不 含 我 们 标记 为 OOB 的 那个 字 节 。OOB 字 节 是 否 发 送 取决 于 
在 套 接 字 发 送 缓冲 区 中 先 于 它 的 字 节 数 、TCP 准 备 发 送 给 对 端的 分 节 大 
小 以 及 对 端 通告 的 当前 窗口 。 


我 们 使 用 了 “紧急 指针 ”和 “紧急 偏 移 ” 这 两 个 术语 。 在 TCP 层 次 上 它 
们 是 不 同 的 。TCP 首 部 中 的 16 位 值 称 为 紧急 指针 ， 它 必须 加 上 同一 个 首 
部 中 的 序列 号 字段 才能 获得 32 位 的 紧急 指针 。 只 有 在 同一 个 首部 中 称 为 
URG 标 志 的 位 已 经 设置 的 前 提 下 ，TCP 才 会 检查 紧急 偏 移 。 从 编程 角度 
看 ， 我 们 无 需 担 心 这 个 细节 ， 统 一 指称 TCP 紧 急 指 针 就 行 。 
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这 是 TCP 紧 急 模式 的 一 个 重要 特点 : TCP 首 部 指出 发 送 端 已 经 进入 
紧急 模式 〈 即 伴随 紧急 偏 移 的 URG 标 志 已 经 设置 ) ， 但 是 由 紧急 指针 所 
指 的 实际 数据 字 节 却 不 一 定 随同 送出 。 事 实 上 即使 发 送 端 TCP 因 流量 控 
制 而 暂停 发 送 数 据 ( 接 收 端 的 套 接 字 接收 缓冲 区 已 满 ， 导 致 其 TCP 问 发 
送 端 TCP 通 告 了 一 个 值 为 0 的 窗口 ) ， 紧 急 通 知 照样 不 伴随 任何 数据 地 
发 送 (CTCPv2 第 1016 页 一 1017 页 ) ， 就 像 我 们 将 在 图 24-10 和 图 24-11 看 


到 的 那样 。 这 也 是 应 用 进程 使 用 TCP 紧 急 模 式 〈 即 带 外 数据 ) 的 一 个 原 
Al: 即便 数据 的 流动 会 因为 TCP 的 流量 控制 而 停止 ， 紧 急 通知 却 总 是 无 
障碍 地 发 送 到 对 端 TCP。 


如 果 我 们 发 送 多 字 市 的 带 外 数据 ， 情 况 义 会 如 何 呢 ? 例 如: 


send(fd, "abc", 3, MSG 00B); 





FERS PIS, TCPRUSA RET IR Ign APT Ai, te 
BLE BLES ABNF PREC) 被 认为 是 带 外 字 市 。 


至 此 我 们 已 经 讲述 了 带 外 数据 的 发 送 ， 下 面 从 接收 端的 角度 查看 一 
T. 





O ” 当 收 到 一 个 设置 了 URG 标 志 的 分 市 时 ， 接 收 端 TCP 检 查 紧 急 指 
针 ， 确 定 它 是 否 指 同 新 的 带 外 数据 ， 也 就 是 判断 本 分 市 是 不 是 首 个 到 达 
的 引用 从 疏 送 并 到 接收 端的 数据 流 中 特定 字 节 的 紧急 模式 分 年 。 友 送 端 
TCP 往 往 发 送 多 个 合 有 URG 标 志 且 紧急 指针 指 癌 同一 个 数据 字 节 的 分 市 
(通常 是 在 一 小 段 时 间 内 〉 。 这 些 分 市 中 只 有 第 一 个 到 达 的 会 导致 通知 
接收 进程 有 新 的 带 外 数据 到 达 。 


(2) 当 有 新 的 紧急 指针 到 达 时 ， 接 收 进程 被 通知 到 。 首 先 ， 内 核 给 
接收 套 接 字 的 属 主 进程 发 送 sI6uR6 信 号 ， 前 提 是 接收 进程 (或 其 他 进 
程 ) 曾 调用 fcnt1 或 ioct1 为 这 个 套 接 字 建立 了 属 主 〈 图 7-20) ， 而 且 该 
属 主 进程 已 为 这 个 信号 建立 了 信和 号 处 理 了 图 数 。 其 次 ， 如 果 接 收 进程 阻塞 
0 9 

LIE [Al o 


一 旦 有 新 的 紧急 指针 a 到达， 不 论 由 紧急 指针 指 癌 的 实际 数据 字 节 是 
人 否 已 经 到 达 接 收 端 TCP， 这 两 个 潜在 通知 接收 进程 的 手段 就 友 生 动作 。 


只 有 一 个 OOB 标 记 ， 如 果 新 的 OOB 字 节 在 旧 的 OOB 字 节 被 读 取 之 
前 就 到 达 ， 旧 的 OOB 字 节 会 被 丢弃 。 


(3) “ 当 由 紧急 指针 指 同 的 实际 数据 字 节 到 达 接 收 端 TCP 时 ， 该 数据 
字 节 既 可 能 被 拉 出 带 外 ， 也 可 能 被 留 在 带 内 ， 即 在 线 Cinline 留 
存 。So_o0BINLINE 套 接 字 选项 默认 情况 下 是 人 禁止 的 ， 对 于 这 样 的 接收 端 
套 接 字 ， 该 数据 字 节 并 不 放 入 套 接 字 接收 缓冲 区 ， 而 是 被 放 入 该 连接 的 











一 个 独立 的 单字 节 带 外 缓冲 区 〈TCPv2 第 986 一 988 页 ) 。 接 收 进程 从 这 
个 单字 节 绥 冲 区 读 入 数据 的 唯一 方法 是 指定 Ms6_ooB 标 志 调 

用 recv、recvfrom 或 recvmsg。 如 果 新 的 OOB 字 节 在 旧 的 OOB 字 节 被 读 
取 之 前 惑 到 达 ， 旧 的 OOB 字 节 会 被 丢弃 。 
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然而 如 果 接 收 进程 开启 了 so_ooBINLINE 套 接 字 选 项 ， 那 么 由 TCP 紧 
急 指 针 指 同 的 实际 数据 字 节 将 被 留 在 通常 的 套 接 字 接收 缓冲 区 中 。 这 种 
情况 下 ， 接 收 进程 不 能 指定 MsG_ooB 标 志 读 入 该 数据 字 节 。 相 反 ， 接 收 
进程 通过 检查 该 连接 的 带 外 标记 〈out-of-band mark) 以 获悉 何 时 访问 到 
这 个 数据 字 节 ， 束 像 我 们 将 在 24.3 节 讲述 的 那样 。 


发 生 一 些 错误 是 可 能 的 。 


(1) 如 果 接 收 进程 请 求 读 入 带 外 数据 “〈 通 过 指定 MsG_ooB 标 志 ) ， 但 
是 对 端 尚 未 发 送 任何 带 外 数据 ， 读 入 操作 将 返回 ETINVAL。 


(2) ”在 接收 进程 已 被 告知 对 器 发 送 了 一 个 市 外 字 节 《通过 SITGURG 
或 select 手 段 〉 的 前 提 下 ， 如 果 接 收 进程 试图 读 入 该 字 节 ， 但 是 该 字 市 
尚未 到 达 ， 读 入 操作 将 返回 EwouLpBLOCK。 接 收 进程 此 时 能 做 的 仅仅 是 
从 套 接 字 接 收 缓冲 区 读 入 数据 (要 是 没有 存放 这 些 数据 的 空间 ， 可 能 还 
EFC) ， 以 便 在 该 缓冲 区 中 腾 出 空间 ， 继 而 允许 对 端 TCP 发 送出 
Ai RE. 


(3) 如 宋 接 收 进程 试图 多 次 读 入 同一 个 带 外 字 节 ， 读 入 操作 将 返回 


EINVAL。 


(4) 如 果 接 收 进程 已 经 开启 了 so_ooBINLINE 套 接 字 选项 ， 后 来 试图 通 
过 指定 MsG_ooB 标 志 读 入 带 外 数据 ， 读 入 操作 将 返回 EINVAL。 


24.2.1 使 用 STGuRG 的 简单 例子 
我 们 现在 给 出 一 个 发 送 和 接收 带 外 数据 的 小 例子 。 图 24-3 给 出 了 发 











aob/tcpserndül.c 





1 #include "unp.h* 


2 int 
3 main(int argc, char **aàrzv) 
aif 
5 int sockEd; 
5 i2 (arge !- 3) 
err quit("usaje: tessendui «hosts ecpcrtgs"!; 
5 sockfd = Tcp connect (aryv[1), argv(2]); 
3 Weitel(sockfd, "123", 3!; 
16 p-intz(*'wrcte 3 bytes of norma, data'n'!; 
11 sleep(1}; 
le Sendfecckfd, "4", 1, MSs UO); 
13 printi(*wret2 1 by-e of OB data\n"); 
14 sleepí1); 
15 Wzite(sockEd, "56", 2): 
16 printf ("wrote 2 byces of normal dataMn'!; 
15 eleep(1!; 
18 Send(scckfd, "7", 1, NSS COE); 
19 p-inti(*'wrcte 1 hy-e of OSB dataMa'!; 
20 sleep(1l; 
21 Write(eockEd, "89", 2); 
kw printf ("wrota 2 byces of normal data'in'!; 
23 sleepí1!:; 
24 exit (h); 
a ] 


cobñepsendðl.c 
图 24-3 ”简单 的 带 外 发 送 程序 


该 程序 共 及 送 9 个 字 节 ， 每 个 输出 操作 之 间 有 一 个 1 秒 钟 的 sleep。 
间 以 停顿 的 目的 是 让 每 个 write 或 send 的 数据 作为 单个 TCP 分 节 在 本 端 发 
送 并 在 对 站 接 收 。 我 们 将 在 本 章 徘 后 讨论 有 关 带 外 数据 的 定时 考虑 。 我 
们 运行 本 程序 ， 看 到 预期 的 输出 : 


macosx % tcpsend01 freebsd4 9999 
wrote 3 bytes of normal data 
wrote 1 byte of OOB data 

wrote 2 bytes of normal data 
wrote 1 byte of OOB data 

wrote 2 bytes of normal data 





图 24-4 给 出 了 接收 程序 。 


————————— —oolbitcprec vil. c 
1 #include "urp.h" 


2 int listenfd, connfd: 
3 void sic vrg[inz); 


4 int 

5 main(int argc, char **argv) 
6 | 

“| int nr 

S caar buff [120] ; 


9 if (argc == 2j 

10 listenEd = Tcp listen(NULL, argv[11, NULL] ; 

11 else if largc == 3) 

12 listenfd = Tcp listen(argv[1], argv(2], NULL); 
13 else 

14 ezr quit("usage; teprecvOl [ «host» ] «pcrzi'!; 


15 connfd = Accept (l:stenid, NULL, NULL); 


16 Signal {SI1GURG, sig urq!; 

17 Fentl(connfd, P_SETOWN, getpid()!; 

1g Sor ( 23 f 

19 if [ (na = Read(connfd, buff, sizeof (buff)-1)) == €! { 
20 printf (* received ROP\n*); 

21 exit (0) ; 

22 

23 buffin}] = 3; /* null terminate */ 
24 point? (* read $0 bytes: $syn", n, buf]; 

zs } 

26 : 

27 void 

28 sig urzg(int signs) 

29 1 

30 int n: 

31 char buff [100] ; 

22 printf |"SISURG received'n"!; 

33 n = Recviconnf2, buff, sizeof (buff)-1, MSG O0B); 
34 baf£(n] = €: /* mull terminates */ 
35 printf|'resd $3 COH byte: te\n", n, buff): 

36 : 


oob/tenrecv0l.c 


图 24-4 简单 的 带 外 接收 程序 
建立 信号 处 理 函 数 和 套 接 字 属 主 


16-17 ”建立 STGURG 的 信号 处 理 函 数 ， 使 用 fcnt1 设 置 已 连接 套 接 字 
的 属 主 。 


注意 ， 我 们 直到 accept 返 回 之 后 才 建 立信 号 处 理 函 数 。 这 么 做 会 错 
过 一 些 以 小 概率 出 现 的 带 外 数据 ， 它 们 在 TCP 完 成 三 路 握手 之 后 但 
在 accept 返 回 之 前 到 达 。 然 而 如 果 我 们 在 调用 accept 之 前 建立 信号 处 理 





函数 并 设置 监听 套 接 字 的 属 主 ( 本 属性 将 传承 给 已 连接 套 接 字 ) ， 那 么 
如 果 带 外 数据 在 accept 返 回 之 前 到 达 ， 我 们 的 信号 处 理 函 数 将 没有 真正 
的 connfd 值 可 用 。 如 果 这 种 情形 对 于 应 用 程序 确实 重要 ， 它 就 应 该 把 

connfd 初 始 化 为 -1， 在 信号 处 理 函数 中 检查 该 值 是 否 为 -1， 厅 为 真 则 简 
单 地 设置 一 个 标志 ， 供 主 循环 在 accept 返 回 之 后 检查 。 男 一 方面 ， 这 可 
能 阻 守 accept 调 用 周围 的 信号 ， 但 这 个 问题 属于 我 们 在 20.5 节 中 讨论 过 
的 信号 竞争 状态 的 范畴 。 


18-25 ”本 进程 从 套 接 字 中 读 ， 显 示 由 read 返 回 的 每 个 字符 串 。 发 
送 进程 终止 连接 后 ， 接 收 进程 随后 终止 。 
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SIGURG 处 理 函 数 

27-36 ”我 们 的 信号 处 理 函 数 调 用 printf， 通 过 指定 Ms6_o0B8 标 志 读 
入 带 外 字 节 ， 然 后 显示 返回 的 数据 。 注 意 ， 我 们 在 recv 调 用 中 请 求 最 多 
100 个 字 节 ， 但 是 我 们 稍 后 看 到 ， 作 为 带 外 数据 返回 的 只 有 1 个 字 节 。 


正如 早先 所 称 ， 从 信号 处 理 函 数 中 调用 不 安全 的 printf 不 被 推荐 。 
我 们 这 样 做 只 是 为 了 查看 程序 在 干什么 。 


下 面 是 先 运行 本 接收 程序 ， 接 着 运行 图 24-3 中 的 发 送 程 序 得 到 的 输 











freebsd4 % tcprecv01 9999 
read 3 bytes: 123 

SIGURG received 

read 1 OOB byte: 4 

read 2 bytes: 56 

SIGURG received 

read 1 OOB byte: 7 

read 2 bytes: 89 

received EOF 


结果 与 我 们 预期 的 一 致 。 发 送 进程 带 外 数据 的 每 次 发 送 产生 递交 给 
接收 进程 的 STGUR6 信 号 ， 后 者 接 大 读 入 单个 带 外 字 市 。 


24.2.2 ”使 用 select 的 简单 例子 
我 们 现在 改 用 select 代 替 sTGURG 信 号 重新 编号 带 外 接收 程序 ， 如 图 








24-5 所 示 o 


oolvtcnrecvüZ.c 
1 £&include "urp.h" 


main(int argc, char **argv) 
{ 


char buff [C01 


> 

4 

5 int listenfd, conn?d, n; 
6 

了 fd cec rset, xsat; 


8g i£ (arge == 2; 

9 lictcntd = Teop_listen(NULL, argyv(1), NULL] ; 

10 elses if (arge zz 3) 

az lietentd = Top listen(argv|1], argvl2_, NULL); 
12 else 

14 err quit("usage: teprscvO04J [ <hoet> ] «pcr-f»'!; 
14 ccnnfd ~ Accept (listenfd, NULL. NULL]; 

15 FD _ZERO(erser; ; 

16 F2 ZE3O(&xset;; 

17 faris kt 

18 FD SET(cc2nnfd, &roct!; 

19 FD SET(c-znaofd, &xset.) ; 

20 Select {(conifd + 1, &-seL, NULL, &xseL, NULL); 
21 if (FD ISSET(comnfd, &xset!| { 

22 n = Rezv(connfd, buff, sizecf(buf=)-1, MSG OCB}; 
23 buffin] = 9; /* null terminate */ 
24 princf (*read td OOR byre: ts\n', n, buff); 
z5 } 


z6 it (FD_ISSET(conntd, Sroct)) { 

27 if ( [in = Read(connfd, buff, sizeof(buff)-1)! == 0! | 
28 printf ("received BOF \n") ; 

23 exit(0); 

30 ) 

21 buffín] = 9; /* null teminate */ 

32 printf ("read td bytes: ts\n", n, buff); 

33 } 

ag 1 

35 ， 


oobvtenrecvüs.c 


图 24-5 ”不 正确 地 ) 使 用 select 得 到 带 外 数据 通知 的 接收 程序 


15-20 ”调用 select 等 待 普通 数据 ( 读 集 合 rset zz» C 
frxset) 。 每 种 情况 下 都 显示 接收 的 数据 。 


我 们 先 运行 本 程序 ， 接 着 运行 早先 的 发 送 程序 (图 24-3) , Zim 
到 如 下 错误 











freebsd4 % tcprecv02 9999 
read 3 bytes: 123 

read 1 OOB byte: 4 

recv error: Invalid argument 


问题 是 select 一 直 指 示 一 个 异常 条 件 ， 直 到 进程 的 读 入 越过 带 外 数 
据 〈TCPv2 第 530 一 531 页 ) 。 同 一 个 带 外 数据 不 能 读 入 多 次 ， 因 为 首次 
读 入 之 后 ， 内 核 就 清空 这 个 单字 节 的 缓冲 区 。 再 次 指定 MsG_ooB 标 志 调 
用 recv 时 ， 它 将 返回 EINVAL。 
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解决 办 法 是 只 在 读 入 普 HEHE Z Jo 7 selectór s Kf. BÉd24-62é R 
24-5 的 一 个 修订 版 本 ， 它 正确 地 人 处理 了 上 述 情形 。 


ew) 
i #irx:lude "unp.h* 


2 int 

3 mainlint argc, char **arzv) 

4 { 

5 int listenfd, connf$, n, justreadoob = 0; 

S char putt 1100); 

7 fd set rset, xset; 

8 if (arcc -- 2) 

9 listenf£d = Tep_listen(NJLL, arzv|2], NULL); 

16 else if (argc == 3) 

11 listenfd = Tcp listen(argv(1], argv[2], NULL); 
12 else 

13 err quit ("usage: terrecv03 [ «boot» ] <port#>"!; 
14 connfd = Accsp-;listenfd, NULL, MJL-): 

15 FD 2BRO [&rset); 

16 FD ZERD[&xset); 

17 for 4 7:324 

18 FD SzT(connfd, &rcet|; 

19 if ‘justreadoob -- 0! 

20 FD SET(cconnfd, &xset); 

21 select(conntd + 1, &£rset, NULL, &xeet, NULL); 
23 if [FD TSSET (cen afd, &xse )! [ 

23 z = Recv(comnfd, cuff, sizeof(buff)-1, MSG 008); 
24 zutf[n] = 0; /* mull tervinace */ 
25 printf ("read $d OCB byte; $3'n", n, suff); 
26 justreaidcob = i; 

27 FD CLR(connfd, &xset); 

25 ) 

29 if {FD_TSSET(cornfd, wrse-)) [ 

30 if | in = Kead{connfd, buff, sizsof;rzuff)-1)) == 0j 1 
31 printf ("seccives EO?Mn'|!; 

32 exit (0l; 

33 } 

34 zufi {n] ~ 90; /* null terminate */ 
35 zrintf("rzeaa td bytes: ts\n", n, buf); 

36 justreadoch = 0; 

37 } 

38 } 

39 ] 


cobitenrecvü3.c 


图 24-6 ”正确 地 select 异 常 条 件 的 图 24-5 程 序 修订 版 本 


5 声明 一 个 名 为 justreadoob 的 变量 ， 用 于 指示 我 们 是 否 刚 刚 读 过 
市 外 数据 。 这 个 标志 决定 是 否 select 异 常 条 件 。 


26-~27“ 当 设置 justreadoob 标 志 时 ， 我 们 还 得 在 异常 描述 符 集中 清 
除 已 连接 套 接 字 描 述 符 对 应 的 位 。 
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本 程序 现在 可 以 按 预 期 的 方式 工作 了 。 
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24.3 sockatmarkrK 2A 


每 当 收 到 一 个 带 外 数据 时 ， 就 有 一 个 与 之 关联 的 之 外 标记 Cout-of- 
band mark) 。 这 是 发 送 进程 发 送 带 外 字 节 时 该 字 节 在 发 送 端 普通 数据 
流 中 的 位 置 。 在 从 套 接 字 读 入 期 间 ， 接 收 进程 通过 调用 sockatmark 函 数 
确定 是 否 处 于 带 外 标记 。 


#include <sys/socket.h> 


int sockatmark(int sockfd); 








可 : 若 处 于 带 外 标记 则 为 1， 若 不 处 于 带 外 标记 则 为 0， 若 出 错 则 





Es 








为 -1 


本 函数 是 POSIX 创 造 的 。POSIX 正 在 把 许多 ioct1 请 求 蔡 换 成 函数 。 


图 24-7 给 出 了 使 用 常见 的 SIOCATMARK — ioct1 完 成 的 本 函数 的 一 个 实 
现 。 


ib/sockatmark.c 





1 B:nclude "unp.h" 
z int 

3 sockatmark(int td) 
qf 


int tlaq; 
€ iE (icetl(fd, SLUCAIMARK, &flsg) < J) 
" return(-1); 
E raturn!fla3 i- 0); 


s] 


Je 





图 24-7 ”使 用 ioct1 实 现 的 sockatmark 函 数 
不 管 接收 进程 在 线 〈so_ooBINLINE 套 接 字 选项 ) 还 是 带 外 〈MsG_ooB 


标志 ) 接收 带 外 数据 ， 带 外 标记 都 适用 。 禹 外 标记 的 常见 用 法 之 一 是 接 
收 进程 特殊 地 对 每 所 有 数据 ， 下 到 越过 它 。 


24.3.1 例子 
我 们 现在 给 出 一 个 简单 的 例子 说 明 带 外 标记 的 以 下 两 个 特性 。 
Q) 带 外 标记 总 是 指向 普通 数据 最 后 一 个 字 节 紧 后 的 位 置 。 这 意味 





Ti, WRES AGERER HAUS RPE AI Te 

用 Ms6_o0B 标 志 发 送 的 ，sockatmark 就 返回 真 。 而 如 果 so_00BINLINE 套 接 
字 选 项 没有 开启 ， 那 么 ， 奉 下 一 个 待 读 入 的 字 节 是 跟 在 市 外 数据 后 发 送 
的 第 一 个 字 节 ，sockatmark 就 返回 真 。 
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(2) “ 读 操 作 总 是 停 在 带 外 标记 上 〈TCPv2 第 519 一 520 页 ) 。 也 就 是 
说 ， 如 果 在 套 接 字 接 收 缓冲 区 中 有 100 个 字 节 ， 不 过 在 带 外 标记 之 前 只 
有 5 个 字 节 ， 而 进程 执行 一 个 请 求 100 个 字 节 的 read 调 用 ， 那 么 返回 的 是 
带 外 标记 之 前 的 5 个 字 节 。 这 种 在 带 外 标记 上 强制 停止 读 操作 的 做 法 使 
得 进程 能 够 调用 sockatmark 确 定 缓冲 区 指针 是 否 处 于 带 外 标记 。 


图 24-8 是 我 们 的 及 送 程序 。 它 发 送 3 个 字 贡 普通 数据 ，1 个 字 贡 市 外 
数据 ， 再 跟 1 个 字 节 普通 数据 。 每 个 输出 操作 之 间 没 有 停顿 。 





sob, epser d.c 





1 £include "unp.h* 


2 int 
3 main(int argc, char **argv) 
44 
e 


int aocktEd; 
6 i= (srgc != 3) 
7 err_quit ("usage: tczsend(04 «host» «pcrté»"!; 
8 sockfd = Tcp ccnnect(argv[1], argv[2]:; 
3 W-zits(sockfd, "125", é 
16 print’ ("wrote 3 hy es of norma“ dat aNn* 17 
11 Send isockfd, "3", 1, NS COR); 
12 pzinti("wrcts 1 by-e of OOB data'n'!; 
3 Write(sockfd, "5*, 1!; 
14 printt(*wreta 上 byte of normal data\n"); 
is exit (0); 
16 ] 


cob/icpsendüM. c 
图 24-8 ”发 送 程序 


图 24-9 是 接收 程序 。 它 既 不 使 用 STGuRG 信 和 号 也 不 使 用 select。 它 调 
用 sockatmark 来 确定 何 时 碰 到 带 外 字 节 。 


oobvtcorecviM.c 





1 Hiuclude "uiup.li* 

2 int 

3 main(int argc, char **argu) 

a{ 

5 int l-atenfd. connfz2, n, cn-1; 

6 char nuff (100) ; 

7 i= (argc == 2) 

a l:stenfd = Tep_listen (WiLL, argv), WLLL): 

S else if (args == 3} 

16 listenid = Tcp listen(argvill, axrav[21, NULLI ; 
11 else 

12 arr quit("usage: tezrecvü4 [ <hoet> ] <perc#="); 
13 Set suckapt (Liscenfd, SOL SOCKET, SO OOBINLIHEB, kon, sizeof (un); 
14 connfd = Accepi [Listenfo, WILL, MIL) ; 

15 sleep (Si; 

16 for R ze I { 

17 if (Sockatmark (cormmEd} ) 

16 zrintf("at 908 mark\n"); 

19 if | in = Read(corm€d, suff, sizcof(suff) 1)} == C) : 
20 priaLf ("received OFEYD"1 ; 

21 exit (0i; 

Bu } 

23 suff [n] = 0; /* null terninate */ 

24 rrin-f("read 3d bytes: ts\n", n, buff]; 

2s } 

26 ] 


ootvtenrecv04.c 


图 24-9 调用 sockatmark 的 接收 程序 


设置 so_ooBINLINE 套 接 字 选 项 


13 我们 希望 在 线 接 收 带 外 数据 ， 所 以 必须 开局 so_o0BINLINE 套 接 


个 选项 ， 





字 选 项 。 但 是 如 宋 我 们 等 到 accept 返 回 之 后 再 在 已 连接 套 接 字 上 开局 这 
那 时 三 路 握手 已 经 完成 ， 带 外 数据 也 可 能 
必须 在 监听 套 接 字 上 开局 这 个 选项 ， 
监听 套 接 字 传 承 给 已 连接 套 接 字 (7.4 六 ) 。 


连接 接受 后 sleep 














14-15 “接受 连接 之 后 ， 接 收 进程 sleep 一 段 时 间 以 接收 来 自发 送 进 


程 的 所 有 数据 。 这 么 做 使 得 我 们 能 够 展示 read 停 在 带 外 标记 上 ， 即 使 套 
接 字 接收 缓冲 区 中 已 经 有 额外 数据 也 不 受 影 啊 。 
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经 到 达 。 因 此 我 们 
因为 我 们 知道 所 有 套 接 字 选项 会 从 


读 入 来 自发 送 进程 的 所 有 数据 


16-25 ”程序 循环 调用 read， 并 显示 收 到 的 数据 。 不 过 在 调用 read 
之 前 , 先 调用 SOC katmark 检 查 绥 冲 区 指针 是 人 否 处 于 带 外 标记 6 


我 们 运行 本 程序 得 到 如 下 输出 : 


freebsd4 % tcprecv04 6666 
read 3 bytes: 

at OOB mark 

read 2 bytes: 45 

recvived EOF 





尽管 接收 进程 首次 调用 read 时 接收 端 TCP 已 经 接收 了 所 有 数据 〈 因 
为 接收 进程 调用 了 sleep) ， 但 是 首次 read 调 用 因 遇 到 带 外 标记 而 仅仅 
返回 3 个 字 节 。 下 一 个 读 入 的 字 节 是 带 外 字 节 〈 值 为 4〉 ， 因 为 我 们 早已 
告知 内 核 在 线 放置 带 外 数据 。 


24.3.2 ”例子 


我 们 现在 给 出 另 一 个 简单 的 例子 ， 用 于 展示 早先 提 到 过 的 带 外 数据 
E353 Sh PN REPE. 


(1) ”即使 因为 流量 控制 而 停止 发 送 数 据 了 ，TCP 仍 然 发 送 市 外 数据 
的 通知 〈 即 它 的 紧急 指针 )〉。 

(2) 在 带 外 数据 到 达 之 前 ， 接 收 进程 可 能 被 通知 说 发 送 进程 已 经 发 
送 了 市 外 数据 《使 用 SITGuRG 信 号 或 通过 select) 。 如 有 果 接 收 进程 接着 指 


定 MSG_00B 调 用 recv， 而 带 外 数据 却 尚 未 到 达 ，recv 将 返回 EwouLDBLOCK 
错误 。 


图 24-10 是 发 送 程序 。 





cob/tcpseradüs. c 








1 #incluce "urp.h" 
2 int 
* main(int argc, cher **argv) 
44 
5 int sockfd, size; 
6 char buff [15334] ; 
" if (argc !- 3} 
& err muit("usage: tcpsenz05 chosr» eport£s*!; 
a scckfd = Tep_conne=t (argy [1], argv .2]1; 
10 S125 = 32768; 
11 Setsockoptiscckfd, SCL SOCKET, SO SNDDUT, &sizs, sizeoEisize!): 
12 Write(sockfd, buEf, 16301); 
13 prinatfi'wrote 16384 bytes of normal dataMn''; 
14 sleep (S$); 
15 Sendismuckf3, "a", 1, MS DOR; 
16 printf ("wrote 1 byte of UOB data\n") ; 
17 Write(sockfd, buff, 1024); 
18 printt|'wrote 1024 bytes o= normal data\n"); 
19 exitio); 
20 } 
cobfiepsendü$. c 
图 24-10 ”发 送 程序 
ep ri > PS LM IST yan ` pus 
9-19 ”该 进程 把 它 的 套 接 字 发 送 缓冲 区 大 小 设置 为 32768， 写 出 


16384 字 市 的 普通 数据 ， 然 后 睡眠 5 秒 钟 。 我 们 稍 后 将 看 到 接收 进程 把 它 
的 套 接 字 接收 缓冲 区 大 小 设置 为 4096， 因 此 发 送 进程 的 这 些 操 作 确 保 发 
送 端 TCP 填 满 接收 端的 套 接 字 接 收 缓冲 区 。 人 发送 进程 接着 发 送 单字 节 的 


带 外 数据 ， 后 跟 1024 字 节 的 普通 数据 ， 然 后 终止 。 
图 24-11 给 出 了 接收 程序 。 


接 ， 建 并 一 个 SIGUR6 信 号 处 理 函 数 ， 并 建立 套 接 字 的 属 主 。 主 控 程 友 然 


coob/tcorecvüs. c 





1 Hinclude "unp.h* 

2 int l stenfd, eons; 

3 void 32g urgiint): 

4 int 

5 wain(int argc, char **aàrqv) 

6 { 

7 int size; 

a i^ (argue ses 2) 

E listenfd = Yep 1isten(MUL., arz7v[-], NULL); 
10 else if (args -= 3} 

11 listenfd = Tcp listen(argvill, argv[21, NULL}; 
12 else 

13 err quit("usage: teprecvas [ cebosts J eportts"); 
14 size - 4C95; 

15 Setsockopt(lisczenfd, SOL SOCKET, 50 RCVBUF, &síizs, sizeof!size,)); 
16 connfd = Ascopzilistentd, NULL, NUL.); 

17 Signal (SIGURG, sig u-g'; 

18 Fentl(cocnfd, $* SETOWN, g=tpid{h); 

19 for 4 r$ 

20 rause it; 

21 

22 void 

25 sig urg(int sigma) 

24 { 

25 int a; 

26 char zutfi20401; 

27 p-intz(*SIGURG received\n"! ; 

2h n = Recviconinfd, buf", sizeof (huff)-1. USG_OOB) ; 
22 buff[n] = 3; /* null terminate */ 
30 print’ (*read %4 OOB byte\n", 2]; 

31] 


oobrteprecvüs. c 


图 24-11 ”接收 程序 


14-20 ”接收 进程 把 监听 套 接 字 接 收 缓冲 区 大 小 设置 为 4096。 连 接 
建立 之 后 ， 这 个 大 小 将 传承 给 已 连接 套 接 字 。 接 收 进程 接着 accept 连 


后 在 一 个 无 穷 循环 中 调用 pause。 


输出 


22~31 








言 写 处 理 函 数 调 用 recv 读 入 禹 外 数据 。 


我 们 先 局 动 接 收 进程 ， 接 着 局 动 及 送 进程 ， 以 下 古来 日 及 送 进程 的 


macosx % tcpsend05 freebsd4 5555 
wrote 16384 bytes of normal data 
wrote 1 byte of OOB data 

wrote 1024 bytes of normal data 


正如 所 期 ， 所 有 这 些 数 据 适 合 及 送 进程 套 接 字 发 送 缓冲 区 的 大 小 ， 
发 送 进程 随后 终止 。 以 下 是 来 日 接收 进程 的 输出 : 


freebsd4 % tcprecv05 5555 
SIGURG received 
recv error: Resource temporarily unavailable 


由 我 们 的 err_sys 函 数 显 示 的 出 错 消 息 串 对 应 于 EAGAIN，EAGAIN 等 同 
于 FreeBSD 中 的 EwouLDBLOCK。 发 送 端 TCP 癌 接收 端 TCP 发 送 了 带 外 通 
知 ， 由 此 产生 递交 给 接收 进程 的 sr6uR6 信 号 。 然 而 当 接 收 进程 指定 
MSG_00B 标 志 调 用 recv 时 ， 相应 带 外 字 节 不 能 读 入 。 


解雇 办 法 是 让 接收 进程 通过 读 入 已 排队 的 普通 数据 ， 在 套 接 字 接 收 
绥 冲 区 中 腾 出 空间 。 这 将 导致 接 收 端 TCP 癌 发 送 端 通告 一 个 非 零 的 窗 
口 ， 最 终 允 许 发 送 端 发 送 带 外 字 节 。 
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Se 8 HUE Fl Berkeley 135 UP BÜBR-AH ASSET, CTCPv23EL016-— 
1017710 。 首 先 ， 即 使 套 接 字 发 送 缓冲 区 已 满 ， 内 核 也 总 能 从 发迹 进程 
接受 将 发 送 到 对 端 前 的 一 个 带 外 字 节 。 其 次 ， 当 发 送 进程 发 送 一 个 带 外 字 
节 时 ， 一 个 含有 紧急 通知 的 TCP 分 Lon 所 有 正常 的 TCP 输 
DE (Nage ENADE) 


24.3.3 ”例子 


我 们 的 下 一 个 例子 展示 了 一 个 给 定 TCP 连 接 只 有 一 个 带 外 标记 ， 如 
IE 星 读 入 某 个 现 有 带 外 数据 之 前 有 新 的 带 外 数据 到 达 ， 先 前 的 
示 记 就 


图 24-12 是 发 送 程 序 ， 它 与 图 24-8 相 似 ， 增 加 了 用 于 发 送 带 外 数据 的 
男 一 个 send 调 用 ， 后 跟 用 于 友 送 普通 数据 的 男 一 个 write 调 用 。 














cob/tcpseraf c 





1 Hiuclude "ur:.p. hi" 

2 int 

3 main(int argc, char **argv) 

4 { 

5 int sockfd; 

6 if (argc != 3} 

3 err zuíit("usage: tcpssni08 «host» -portf'! 
8 scckfd = Tcp conaectí(argv[ll, arav (211; 

S Write(socktd, "123", 31; 

10 print£ ("wrote 2 sytes of normal data\n"); 


Sendicockfd, "4", 1, MSG 90B;; 
printfi'wrote 1 byte of OOB data\n"); 


13 Write (sockfd, "5", 1); 


14 primi *wrote 1 byte of noma] Gabaxn"); 
15 Send(sock(d, "E", 1, MSG_NOR); 

16 printfi'wrote 1 byte of COB deta\n") ; 

17 Write (sockfd, "7", 1); 

18 priíntf!'wrote 1 syte of normal data\n"); 
19 exitio); 

20 : 


cob/tepsendüt. c 
图 24-12 ” 紧 挨 着 发 送 两 个 带 外 字 节 


各 个 输出 调用 之 间 没 有 停顿 ， 使 得 所 有 数据 能 够 迅速 地 发 送 到 接收 
端 TCP。 


接收 程序 就 是 图 24-9 所 示 的 程序 ， 它 在 接受 连接 之 后 睡眠 5 秒 钟 ， 
以 允许 来 日 发 送 端 的 数据 到 达 接 收 端 TCP。 以 下 是 接收 进程 的 输出 : 


freebsd4 % tcprecv06 5555 
read 5 bytes: 12345 

at OOB mark 

read 2 bytes: 67 

received EOF 








第 二 个 带 外 字 节 《〈6) BJSUESESIE—TwuyME C) 到 来 时 存 
放 的 带 外 标记 。 正 像 我 们 所 说 ， 每 个 TCP 连接 最 多 只 有 个 带 外 标记 。 
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24.4 TCP ^» AJ 


至 此 我 们 使 用 带 外 数据 的 所 有 例子 都 是 简易 的 。 不 幸 的 是 ， 当 我 们 
考虑 可 能 出 现 的 定时 间 题 时 ， 带 外 数据 将 变 得 繁杂 起 来 。 首 先 要 考虑 的 
一 点 是 币 外 数据 概念 实际 上 同 接收 并 传达 三 个 不 同 的 信息 。 


(1) ”发送 端 进 入 紧急 模式 这 个 事实 。 接 收 进程 得 以 通知 这 个 事实 的 
手段 不 外 乎 sTGuRG 信 号 或 select 调 用 。 本 通知 在 发 送 进程 发 送 带 外 字 节 
后 由 发 送 问 TCP 立 即 发 送 ， 因 为 我 们 在 图 24-11 中 看 到 ， 即 使 往 接收 闯 的 
任何 数据 发 送 因 流量 控制 而 停止 了 ，TCP 仍 然 发 送 本 通知 。 本 通知 可 能 
导致 授 收 端 进入 茶 种 特殊 处 理 模 式 ， 以 处 理 接 收 的 任何 后 继 数 据 。 


(2) 带 外 字 节 的 位 置 ， 也 束 是 它 相 对 于 来 自发 送 端 的 其 余数 据 的 友 
送 位 置 : 带 外 标记 。 


(3) ”和 带 外 字 节 的 实际 值 。 既 然 TCP 是 一 个 不 解释 应 用 进程 所 发 送 数 
据 的 字 节 流 协 议 ， 带 外 字 节 就 可 以 是 任何 8 位 值 。 


对 于 TCP 的 紧急 模式 ， 我 们 可 以 认为 URG 标 志 是 通知 (信息 1)， 
紧急 指针 是 带 外 标记 (信息 2) ， 数 据 字 节 是 其 本 身 (信息 3) 。 


与 这 个 带 外 数据 概念 相关 的 问题 有 : (a) 每 个 连接 只 有 一 个 TCP 
Ka b 每 个 连接 只 有 一 个 带 外 标记 ，〈c) 每 个 连接 只 有 一 个 
单字 节 的 带 外 缓冲 区 该 缓冲 区 只 有 在 数据 非 在 线 读 入 时 才 需 考虑 ) 。 
我 们 在 图 24-12 中 看 到 ， 新 到 达标 记 履 写 接收 进程 尚未 碰 到 的 任何 先前 
的 标记 。 如 果 带 外 数据 是 在 线 读 入 的 ， 那 么 当 新 的 带 外 数据 到 达 时 ， 移 
we 




















带 外 数据 的 一 个 常见 用 途 体现 在 rlogin 程 序 中 。 当 客户 中 断 运 行 在 
服务 器 主机 上 的 程序 时 (CTCPv1 第 393 一 394 页 ) ， 服 务 器 需要 告知 客户 
丢弃 所 有 已 在 服务 器 排队 的 输出 ， 因 为 已 经 排队 等 着 从 服务 器 发 送 到 客 
户 的 输出 最 多 有 一 个 窗口 的 大 小 。 服 务 器 向 客户 发 送 一 个 特殊 字 节 ， 告 
知 后 者 清 刷 所 有 这 些 输 出 (在 客户 看 来 是 输入 ) ， 这 个 特殊 字 节 就 作为 
带 外 数据 发 送 。 客 户 收 到 由 带 外 数据 引发 的 STGuRG 信 和 号 后 ， 就 从 套 接 字 
中 读 入 直到 磁 到 带 外 标记 ， 并 丢弃 到 标记 之 前 的 所 有 数据 。 (CTCPv1 第 





398~ 401 KA — ^ BUE fs Hr P YB, TECH NER tcpdump 
出 。) 这 种 情形 下 即使 服务 器 相继 地 快速 发 送 多 个 带 外 字 节 ， 客 户 也 不 
受 影响 ， 因 为 客户 只 是 读 到 最 后 一 个 标记 为 止 ， 并 丢弃 所 有 读 入 的 数 
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总 之 ， 带 外 数据 是 否 有 用 取决 于 应 用 程序 使 用 它 的 目的 。 如 果 目 的 
是 告知 对 端 丢 弃 直 到 标记 处 的 普通 数据 ， 那 么 丢失 一 个 中 间 带 外 字 节 及 
其 相应 的 标记 不 会 有 什么 不 良 后 果 。 但 是 如 果 不 丢 失 带 外 字 节 本 身 很 重 
要 ， 那 么 必须 在 线 接收 这 些 数据 。 另 外 ， 作 为 带 外 数据 发 送 的 数据 字 节 
应 该 区 别 于 普通 数据 ， 因 为 当 有 新 的 标记 到 达 时 ， 中 间 的 标记 将 被 覆 
写 ， 从 而 事实 上 把 带 外 字 节 混杂 在 普通 数据 之 中 。 举 例 来 说 ，telnet 在 
客户 和 服务 器 之 间 普 通 的 数据 流 中 发 送 telnet 自 己 的 命令 ， 手 段 是 把 值 
为 255 的 一 个 字 节 作为 telnet 命 令 的 前 缀 字 节 。 【〈 值 为 255 的 单个 字 节 作 
为 数据 发 送 需要 2 个 相继 的 值 为 255 的 字 节 。) 这 么 做 使 得 telnet 能 够 区 
分 其 命令 和 普通 用 户 数 据 ， 不 过 要 求 客户 进程 和 服务 器 进程 处 理 每 个 数 
据 字 节 以 寻找 命令 。 

















24.5 ”客户 /服务 器 心 搏 函数 饥 


我 们 现在 为 本 书 早先 讲解 的 回 送 客 户 和 服务 器 程序 开发 一 些 简 单 的 
ORRA X EE R A DAR RT di ELER BURT di E AERE FER 


效 。 


在 给 出 这 些 函 数 之 前 我 们 必须 提出 一 些 警告 。 首 先 ， 有 人 会 想到 使 
用 TCP 的 保持 存活 特性 〈so_KEEPALIVE 套 接 字 选项 ) 来 提供 这 种 功能 ， 
然而 TCP 得 在 连接 已 经 闲置 2 小 时 之 后 才 发 送 一 个 保持 存活 探测 段 。 意 
识 到 这 一 点 以 后 ， 他 们 的 下 一 个 问题 是 如 何 把 保持 存活 参数 改 为 一 个 小 
得 多 的 值 〈 往 往 是 在 秒 钟 的 量 级 ) ， 以 便 更 快 地 检测 到 失效 。 尽 管 缩短 
TCP 的 保持 存活 定时 器 参数 在 许多 系统 上 确实 可 行 〈 见 TCPv1 的 附录 
E) ， 但 是 这 些 参数 通 和 是 按照 内 核 而 不 是 按照 每 个 套 接 字 维护 的 ， 因 
此 改动 它们 将 影响 所 有 开启 该 选项 的 套 接 字 。 另 外 保持 存活 选项 的 用 意 
绝 不 是 这 个 日 的 (高 频率 地 轮 询 ) 。 


其 次 ， 两 个 端 系统 之 间 短 暂 的 连接 性 丢失 并 非 总 是 坏事 。TCP 一 开 
始 就 设计 成 能 够 对 付 临 时 断 连 ， 而 源 目 Berkeley 的 TCP 实 现 将 重 传 8 一 10 
分 钟 才 放 茎 菜 个 连接 。 较 新 的 IP 路 由 协议 例如 OSPF)〉 能 够 友 现 链接 
的 失效 ， 并 且 有 可 能 在 短 时 间 内 〈 壁 如 在 秒 钟 量 级 上 )〉 启用 候选 的 路 
径 。 因 此 应 用 程序 开发 人 员 必 须 审 查 想 要 引入 心 捕 机 制 的 具体 应 用 ， 确 
定 在 没有 听 到 对 端 应 答 的 持续 时 间 超 过 5 一 10 s 之 后 终止 相应 连接 是 件 好 
事 还 是 坏事 。 有 些 应 用 系统 需要 这 种 功能 ， 不 过 大 多 数 却 并 不 需要 。 


我 们 将 使 用 TCP 的 紧急 模式 周期 地 轮 询 对 端 ; 在 下 面 的 讲解 中 我 们 
假设 每 1 秒 钟 轮 询 一 次 ， 各 持续 5 秒 钟 没有 上 听 到 对 端 应 答 则 认为 对 端 已 不 
0 
器 的 关系 。 
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图 24-13 ”使 用 带 外 数据 的 客户 /服务 器 心 搏 机 和 
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EIRP BIE, FP EBL BH RU HR A AS IES hE, ARS 
as WCRI E SBE AF RR ANEI. BEND na BE AT MT 
端 是 否 不 复 存 在 或 者 不 再 可 达 。 客 户 和 服务 器 每 1 秒 钟 递 增 它们 的 cnt 变 
量 一 次 ， 每 收 到 一 个 带 外 字 节 又 把 该 变量 重 置 为 0。 如 果 该 计数 器 达到 
5《〈 也 就 是 说 本 进程 已 有 5 秒 钟 没 有 收 到 来 自 对 端的 带 外 字 节 ) ， 那 就 认 
定 连接 失效 。 当 有 带 外 字 节 到 达 时 ， 客 户 和 服务 器 都 使 用 STGuRG 信 和 号 得 
以 通知 。 我 们 在 该 图 中 间 指 出 : 数据 、 回 送 数据 和 带 外 字 节 都 通过 单个 
TCP 连 接 交 换 。 


我 们 的 客户 程序 main 函 数 来 自 图 5-4， 没 有 改动 。 我 们 的 str_c1li 函 
数 《〈 我 们 没有 给 出 ) 与 图 6-13 的 版 本 相 比 只 有 3 处 简单 的 改动 。 


(1) 在 进入 for 循 环 之 前 ， 调 用 我 们 的 heartbeat_cli 函 数 设置 客户 的 
心 搏 特性 : 


heartbeat cli(sockfd, 1, 5); 























其 中 第 二 个 参数 是 以 秒 钟 为 单位 的 轮 询 频 率 ， 第 三 个 参数 是 放弃 当 
前 连接 之 前 应 该 经 历 的 持续 无 啊 应 轮 询 次 数 。 


(2 如果 select 调 用 返回 EINTR 错 误 ， 我 们 continue 到 循环 开始 处 再 
次 调用 select。 注 意图 24-13 中 客户 现在 捕获 2 个 信号 : SIGALRM 和 
SIGURG， 因 此 我 们 必须 准备 好 处 理 被 中 断 的 系统 调用 。 





(3 我 们 调用 writen 而 不 是 fputs 往 标准 输出 写 出 回 送 的 文本 行 。 这 
么 做 是 因为 我 们 在 捕获 2 个 信和 号， 它们 可 能 中 断 慢 系统 调用 ， 而 有 些 版 
ORE EE R [Kom and Vo 
1991]. 


图 24-14 给 出 了 为 客户 程序 提供 心 搏 功 能 的 3 个 函数 。 


cobtiscribeatcli.c 


1 $include "urp.h" 

2 static int servfd; 

4 stal ic inl nsen; /* deseas bet wee eadh alanu 4/ 
4 static int maxnprobes: /* fprobes w/ro resronse befors quit */ 
5 etatic int nproces; /* #probes einez last server vseponce */ 
6 static voic siz uralinz). sig alrm[int): 

7 void 

8 heartbeat clilint servfd a-g. int nsec arg, int maxnzrcbes z-g: 
9 

10 servfd ~ servis arg; /* set globals for signal handlers */ 
il iE ( (meec = neec_arq) < 1) 

12 nsec = i 

13 iE ( (maxnprobes = maxnprubes arg) < msec) 

14 maxnprcbas - nsec; 

15 nerobes = C: 

16 Signal iSIGURG, sig urg!; 

17 Fcntl(servfd, P ZCETOWN, qetpid()}; 

18 Signal (SiGALEM, 3ig alrm!; 

19 alarm(nsec) ; 

20 : 

21 static voic 

22 sig urg(in sign) 

23 { 

#4 int or 

25 char e; 

26 it ( (n = recv(scrvtd, &c, 1, MEC OCBI) < 0) f 

27 i= ferens !- EWOULDBLCCK) 

78 err sys["rer error"); 

z9 ] 

30 nprobese = Cr /* reset counter */ 

31 return; /* may interrupt client cece */ 

A2 3 


33 static voic 
34 sig elrmtict sigo) 


35 1 

36 iE (44nprobee > maxnprobes! | 

37 fprirtf[stderr, “server is unreachable\n") ; 

EET wit (0) ; 

39 ] 

40 Sendí(cervfd. "1", 1, MSS UOB,; 

41 alarm(ngec) ; 

42 return; /* may interrupt cliert code */ 
43 


TREE 








图 24-14 客户 程序 心 搏 函数 
全 局 变量 


2-5 A374 er theartbeat_cliki WEA RIA: 套 接 字 描述 符 
《信和 号 处 理 函 数 用 它 来 发 送 和 接收 带 外 数据 ) 、SIGALRM 的 频率 、 在 客 
户 认为 服务 器 或 连接 不 复 存 活 之 前 处 理 的 无 服务 器 响应 的 SIGALRM 总 
T. i 
SIGALRMZALH o 








heartbeat cli% BN 


7-20 heartbeat cliPK ARA HRT, ZASIGURGAISIGALRME 
立信 号 处 理 函 数 ， 并 把 套 接 字 的 属 主 设置 为 本 进程 ID。 执 行 alarm 以 调 


度 第 一 个 SIGALRM 。 
SIGURG 处 理 函 数 


21-32 ”本 信号 在 某 个 带 外 通知 到 达 时 产生 。 我 们 尝试 读 入 相应 的 
带 外 字 节 ， 不 过 如 果 它 还 没有 到 达 〈EwouLDBLocK) ， 那 也 没有 关系 。 
注意 ， 我 们 不 采用 在 线 接收 带 外 数据 方式 ， 因 为 这 种 方式 会 干扰 客户 读 
取 它 的 正常 数据 。 


既然 服务 器 仍然 存活 着 ， 我 们 把 nprobes 重 置 为 0。 
SIGALRM 处 理 函 数 


33-43 ”本 信号 以 恒定 的 间隔 产生 。 递 增 计数 器 nprobes， 如 果 达 
到 jmaxnprobes， 我 们 就 认定 服务 器 主机 或 者 已 经 骨 尝 ， 或 者 不 再 可 达 。 
在 本 例子 中 我 们 简单 地 结束 客户 进程 ， 不 过 也 可 以 采用 其 他 设计 : 可 以 
给 主 控制 循环 发 送 一 个 信号 ， 或 者 给 heartbeat_cli 增 设 一 个 用 于 指定 
一 个 客户 函数 的 参数 ， 当 服务 器 看 来 不 复 存 活 时 调用 该 客户 函数 。 


作为 带 外 数据 发 送 一 个 含有 字符 1 的 字 节 (该 值 没 有 任何 隐 含 意 
) ， 再 执行 alarm 调 度 下 一 个 SIGALRM。 


我 们 的 服务 器 程序 main 函 数 与 图 5-12 的 一 样 。 我 们 的 str_echo 函 数 
与 图 5-3 的 相 比 只 有 1 处 改动 ， 即 在 for 循 环 前 加 入 为 服务 器 初始 化 心 搏 
函数 的 如 下 行 : 








heartbeat serv(sockfd, 1, 5); 


图 24-15 给 出 了 服务 器 程序 的 心 搏 函 数 。 


oolhearibeatsery.c 


1 #include "unp. te" 

2 static int  servfd; 

3 etatic int nsec; /* tseconzs betwean each alarm */ 

4 static int maxnalarms; /* £alarns wro client probe before quit */ 
S static jnt — "preoes; /* kalarüs since last client probe */ 
6 static void s-g urgí(inc), sig alrm/in-): 

7 void 

0 keartbeat se-v[int servfd arg. irt nsec arg, int maxnalsrws arg! 
si 

10 servfd = servfd arg; /* set globals for signal bardlers */ 
11 a= { (msec = nsec arg) < 1; 

12 asec = 1; 

13 7 ( (maxna arcs m omaxünelaraw arg) c nsec) 

14 maxnalarms = nssc; 

15 Signal (SIGURS, cig urg}; 

1C Tentl(serv£d, 7 SDTOWN, getpid!)); 

17 Signal(SIGBLRM, sig alrim'; 

1&8 elaru(nssc) ; 

is ] 


20 scstic void 
21 sig urglint sigmo) 


22 | 


32 ) 


int aj 
char e; 


i= ( (n = rezv(servfd, &c, 1, M88 .00B'} < 0) | 
if (exrno t= EWODULDRLCCXE) 
err sysi"recv errcr"); 


} 

Send(servfd, &c, 1, M8G O^OB); /* echo back ect-of-bard byte */ 
nprohes = 1; /* reser "omrer */ 

return; /* may interrup- server coje */ 


33 static void 
34 sig a-rm(-nt signo) 


as | 


it ((4nprozes > maxnalarmz; ( 
zrintf("no probes from client \n") ; 
exit (0! ; 


) 


élarm(nsec) ; 
return; /* nay inter-upt server code */ 


oobMwortbeatser v2 


图 24-15 ”服务 器 程序 心 搏 函 数 


heartbeat servi Zi 





7-19 EHTE, pki Wheartbeat_serVI LF E; 2c P MOKU K 
数 一 样 。 


SIGURG 处 理 函 数 


20-32 ”服务 器 收 到 一 个 带 外 通知 后 就 尝试 读 入 相应 的 带 外 字 节 。 
就 像 客户 一 样 ， 如 果 该 带 外 字 节 还 没有 到 达 ， 那 也 没有 什么 关系 。 服 务 
器 把 读 入 的 带 外 字 节 作为 带 外 数据 回 送 给 客户 。 注 意 ， 如 果 recv 返 回 
EWoULDBLOCK 错 误 ， 那 么 自动 变量 c 碰 巧 是 什么 就 回 送 什么 。 既 然 我 们 不 
把 带 外 字 节 的 值 用 于 任何 目的 ， 这 么 处 置 就 不 会 有 问题 。 重 要 的 是 发 送 
1 字 节 的 带 外 数据 本 身 ， 而 不 管 该 字 节 到 底 是 什么 。 既 然 刚 收 到 客户 仍 
然 存活 着 的 通知 ， 我 们 把 nprobes 重 置 为 0。 


SIGALRM 处 理 函 数 


33-42 递增 nprobes， 如 果 达 到 由 调用 者 指定 的 maxnalarms 值 ， HB 
就 终止 服务 器 进程 ， 否 则 调度 下 一 个 SIGALRM。 





24.6 小结 


TCP 没 有 真正 的 带 外 数据 ， 不 过 提供 紧急 模式 和 紧急 指针 。 一 旦 发 
送 端 进入 紧急 模式 ， 紧 急 指针 就 出 现在 发 送 到 对 端的 分 节 中 的 TCP 首 部 
中 。 连 接 的 对 端 收取 该 指针 是 在 告知 接收 进程 发 送 端 已 经 进入 紧急 模 
式 ， 而 且 该 指针 指 问 紧急 数据 的 最 后 一 个 字 节 。 然 而 所 有 数据 的 发 送 仍 
然 受 TCP 正 和 常 的 流量 控制 支配 。 


套 接 字 API 把 TCP 的 紧急 模式 映射 成 所 谓 的 带 外 数据 。 发 送 进程 通 
过 指定 MsG_ooB 标 志 调 用 send 让 发 送 端 进入 紧急 模式 。 该 调用 中 的 最 后 
一 个 数据 字 节 被 认为 是 带 外 字 节 。 接 收 端 TCP 收 到 新 的 紧急 指针 后 ， 或 
者 通过 发 送 SIGUR6 信 号 ， 或 者 通过 由 select 返 回 套 接 字 有 异常 条 件 竺 处 
理 的 指示 ， 让 接收 进程 得 以 通知 。 默 认 情 况 下 ， 接 收 端 TCP 把 带 外 字 节 
从 普通 数据 流 中 取出 存放 到 自己 的 单字 节 带 外 缓冲 区 ， 供 接收 进程 通过 
指定 MsG_ooB 标 志 调 用 recv 读 取 。 接 收 进程 也 可 以 开局 so_ooBINLINE 套 接 
字 选 项 ， 这 种 情况 下 ， 带 外 字 节 被 留 在 普通 数据 流 中 。 不 管 接 收 进程 使 
用 哪 种 方法 读 取 带 外 字 节 ， 套 接 字 层 都 在 数据 流 中 维护 一 个 带 外 标记 ， 
并 且 不 允许 单个 输入 操作 读 过 这 个 标记 。 接收 进程 通过 调用 sockatmark 
函数 确定 它 是 否 已 经 到 达 该 标记 。 

带 外 数据 未 被 广泛 地 使 用 。telnet 和 rlogin 使 用 它 ，FTP 也 使 用 
它 ， 它 们 使 用 带 外 数据 是 为 了 通知 远 端 有 异常 情况 〈 如 客户 中 断 ) 发 
生 ， 而 且 服 务 器 丢弃 融 外 标记 前 接收 的 所 有 输入 。 


























习题 
24.1 在 如 下 单个 函数 调用 


send(fd, "ab", 2, MSG 00B); 


和 如 下 两 个 函数 调用 


send(fd, "a", 1, MSG 00B); 
send(fd, "b", 1, MSG 00B); 


之 间 存 在 差异 吗 ? 
24.2 重新 编写 图 24-6 中 的 程序 ， 改 用 pol11 代 奉 select。 
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本 节 为 第 2 版 内 容 ， 保 留 在 此 。 一 一 译 者 注 


E2538 ”信号 驱动 式 VO 


25.1 概述 


言 号 驱动 式 WVO 是 指 进 程 预 完 告 知 内 核 ， 使 得 当 某 个 描述 符 上 发 生 
某 事 时 ， 内 核 使 用 信号 通知 相关 进程 。 它 在 历史 上 曾 被 称 为 异 
步 WO (asynchronous I/O) ， 不 过 我 们 讲解 的 信号 驱动 式 VO 不 是 真正 的 
异步 /JO。 后 者 通常 定义 为 进程 执行 WO 系统 调用 〈( 壁 如 读 或 写 ) 告知 内 
核 启动 某 个 VO 操作 ， 内 核 启动 /O 操 作 后 立即 返回 到 进程 。 进 程 在 WO 操 
作 发 生 期 间 继 续 执行 。 当 操作 完成 或 遇 到 错误 时 ， 内 核 以 进程 在 MO 系 
统 调用 中 指定 的 某 种 方式 通知 进程 。 我 们 已 在 6.2 节 比较 了 通常 可 用 的 
各 种 IO 类 型 ， 并 指出 了 信和 号 驱动 式 HO 和 异步 JO 之 间 的 差异 。 


注意 ， 我 们 在 第 16 章 讲解 过 的 非 阻塞 式 IO 同 样 不 是 异步 JO。 对 于 
非 阻塞 式 HO， 内 核 一 且 局 动 VO 操 作 束 不 像 异 步 WO 那 样 立即 返回 到 进 
程 ， 而 是 等 到 IO 操作 完成 或 遇 到 错误 ， 内 核 立 即 返回 的 唯一 条 件 是 IO 
操作 的 完成 不 得 不 把 进程 投入 睡眠 ， 这 种 情况 下 内 核 不 启动 VO 操作 。 


POSIX 通 过 aio_XXX 函 数 提供 真正 的 异步 JO。 这 些 函 数 允 许 进 程 指 
定 1O 操 作 完 成 时 是 否 由 内 核 产 生 信号 以 及 产生 什么 信号 。 


源 目 Berkeley 的 实现 使 用 SITGIo 信 号 文 持 套 接 字 和 终端 设备 上 的 信和 号 
驱动 式 /O。SVR4 使 用 srt6PoLL 信 号 支持 流 设备 上 的 信号 驱动 式 
I/O，sIGPOLL| 因 而 等 价 于 sr6I0。 
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25.2 BET I fas IKIO 


针对 一 个 套 接 字 使 用 信号 驱动 式 WO (iero) 要 求 进程 执行 以 下 3 


个 步 又。 
(1) 建立 SIGI0 信 号 的 信号 处 理 函 数 。 


(2) 设置 该 套 接 字 的 属 主 ， 通 常 使 用 fcnt1 的 F_SETowN 命 令 设置 〈 图 
7-20) 。 


(3) 开启 该 套 接 字 的 信号 驱动 式 1JO， 通 常 通过 使 用 fcnt1 的 F_SETFL 
命令 打开 o_AsYNc 标 志 完 成 〈 图 7-20) 。 


0_ASYNC 标 志 是 相对 较 晚 加 到 POSIX 规 范 中 的 。 支 持 该 标志 的 系统 
仍 不 多 见 。 我 们 在 图 25-4 中 改 用 ioct1 的 FIOASYNC 请 求 代为 开启 信号 驱动 
式 IO。 注 意 POSIX 选 用 的 名 字 并 不 恰当 : 选用 o_sTGIo 作 为 这 个 标志 的 
名 字 也 许 更 好 些 。 


我 们 应 该 在 设置 套 接 字 属 主 之 前 建立 信号 处 理 函 数 。 在 源 自 
Berkeley 的 实现 中 ， 这 两 个 步骤 的 函数 调用 顺序 无 关 紧 要 ， 因 为 SITGIo 的 
默认 行为 是 忽略 该 信号 。 要 是 我 们 颠倒 这 两 个 函数 调用 的 顺序 ， 那 么 在 
调用 fcnti 之 后 但 在 调用 signal 之 前 有 和 较 小 的 机 会 产生 sI6I0 信 号 ; GH 
如 此 ， 该 信号 只 是 被 丢弃 。 然 而 在 SVR4 中 ， 头 文件 <sys/signal.h> 把 
SITGI0 定 义 为 SITGPOLL， 而 SLGPOLL 的 默认 行为 是 终止 进程 。 因 此 在 SVR4 
中 ， 我 们 必须 先 安装 信和 号 处 理 函 数 ， 再 设置 套 接 字 属 主 。 


尽管 很 容易 把 一 个 套 接 字 设置 成 以 信号 驱动 式 1O 模 式 工作 ， 确 定 
哪些 条 件 导致 内 核 产生 递交 给 套 接 字 属 主 的 sr6ro 信 号 却 殊 非 易 事 。 这 
种 判定 取决 于 支撑 协议 。 

25.2.1 X] T UDP EZ Y lWJsrerofz 5 


mo PE 言 号 驱动 式 IO 是 简单 的 。sIGIo 信 和 号 在 发 生 以 下 事件 
Hy yp : 


























© 数据 报到 达 套 接 字 ; 
© 套 接 字 上 发 生 开 步 错误 。 


因此 当 捕 获 对 于 某 个 UDP 套 接 字 的 STGITo 信 号 时 ， 我 们 调 
用 recvfrom 或 者 读 入 到 达 的 数据 报 ， 或 者 获取 发 生 的 异步 错误 。 我 们 已 
在 8.9 节 就 UDP 套 接 字 讨 论 过 异步 错误 ， 从 中 知道 发 生 异 步 错 误 的 前 提 
是 UDP 套 接 字 已 连接 。 


这 两 个 条 件 下 ，SIGI0 信 号 通过 调用 sorwakeup 产 生 〈 见 TCPv2 第 
775、779 页 及 784 页 ) 。 
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25.2.2 ”对 于 TCP 套 接 字 的 STGIo 信 号 


不 幸 的 是 ， 信 和 号 驱动 式 JO 对 于 TCP 套 接 字 近乎 无 用 。 问 题 在 于 该 信 
号 产生 得 过 于 频繁 ， 并 且 它 的 出 现 并 没有 告诉 我 们 发 生 了 什么 事件 。 正 
如 TCPv2 第 439 页 所 注 ， 下 列 条 件 均 导 致 对 于 一 个 TCP 套 接 字 产生 SITGI0 
信号 (假设 该 套 接 字 的 信号 驱动 式 I/O 已 经 开启 〉: 











。 监听 套 接 字 上 茶 个 连接 请 求 已 经 完成 ; 

。 东 个 断 连 请 求 已 经 发 起 ; 

。 东 个 断 连 请 求 已 经 完成 ; 

e 东 个 连接 之 半 已 经 关闭 ; 

。 数据 到 达 套 接 字 ; 

。 数据 已 经 从 套 接 字 发 送 走 〈 即 输出 缓冲 区 有 空闲 空间 ) ; 
。 发 生 茶 个 异步 错误 。 


举例 来 说 ， 如 果 一 个 进程 既 读 自 又 写 往 一 个 TCP 套 接 字 ， 那 么 当 有 
新 数据 到 达 时 或 者 当 以 前 写 出 的 数据 得 到 确认 时 ，sr6I0 信 号 均 会 产 
生 ， 而 且 信号 处 理 函数 中 无 法 区 分 这 两 种 情况 。 如 果 sTGIo 用 于 这 种 数 
据 读 写 情形 ， 那 么 TCP 套 接 字 应 该 设置 成 非 阻塞 式 ， 以 防 read 或 write 发 
生 阻 塞 。 我 们 应 该 考虑 只 对 监听 TCP 套 接 字 使 用 srero， 因 为 对 于 监听 
套 接 字 产生 sr6r0 的 唯一 条 件 是 某 个 新 连接 的 完成 ，。 


作者 能 够 找到 的 信号 驱动 式 /O 对 于 万 接 字 的 唯一 现实 用 途 是 基于 
UDP 的 NTP 服 务 器 程序 。 服 务 嚣 主 循环 接收 来 自 客户 的 一 个 请 求 数 据 报 








并 发 送 回 一 个 应 答 数 据 报 。 然 而 对 于 每 个 客户 请 求 ， 其 处 理工 作 量 并 非 

可 以 忽略 ( 远 比 我 们 简单 地 回 射 服务 器 多 ) 。 对 服务 器 而 言 ， 重 要 的 是 

为 每 个 收取 的 数据 报 记 录 精 确 的 时 间 惟 ， 因 为 该 值 将 返 送 给 客户 ， 由 客 
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图 25-1 构建 一 个 UDP 服务 器 的 两 种 方式 


大 多 数 UDP 服 务 器 《包括 第 8 章 中 的 回 射 服务 器 ) 都 设计 成 图 中 左 
侧 所 示 的 方式 ， 不 过 NTP 服 务 器 却 采 用 右 侧 所 示 的 技巧 ， 当 一 个 新 的 数 
据 报 到 达 时 ，sI6I0 处 理 函 数 读 入 该 数据 报 ， 同 时 记录 它 的 到 达 时 刻 ， 
然后 将 它 置 于 进程 内 的 另 一 个 队列 中 ， 以 便 主 服务 器 循环 移 走 并 处 理 。 
人 了 ， 却 为 到 达 数 据 报 提供 了 精确 的 时 
[TR] HX o 


回顾 图 22-4， 我 们 知道 进程 可 以 通过 设置 TP_RECVDSTADDR 套 接 字 选 
项 获取 所 收取 UDP 数据 报 的 目的 地 址 。 可 能 有 人 会 争论 说 ， 对 于 所 收取 
UDP 数据 报应 该 同时 返回 另外 两 个 信息 ， 接 收 接 口 指 示 《〈 如 果 主 机 采用 
普 所 的 弱 端 系统 模型 ， 那 么 接收 接口 和 目的 地 址 可 能 不 一 致 ; 和 数据 报 





到 达 时 刻 。 


对 于 IPv6，IPVv6_PKTINF0 套 接 字 选项 (22.815) 返回 接收 接口 。 对 
TIPv4, 我 们 已 在 22.2 节 讨论 过 TP RECVIF 登 接 字 选项 。 


FreeBSD 还 提供 so_TIMESTAMP 套 接 字 选项 ， 它 在 一 个 timeval 结 构 中 
以 辅助 数据 的 形式 返回 数据 报 的 接收 时 刻 。Linux 则 提供 SITocGSsTAMP 
ioctl， 它 返回 一 个 含有 数据 报 接收 时 刻 的 timeval 结 构 。 





25.3 ”使 用 srI6I0 的 UDP 回 射 服务 器 程序 


我 们 现在 给 出 一 个 类 似 图 25-1 右 侧 的 例子 : 一 个 使 用 sr6Iro 信 号 接 
收 到 达 数 据 报 的 UDP 服务 器 程序 。 


客户 程序 束 是 图 8-7 和 图 8-8， 没 有 任何 改动 。 服 务 髓 程序 main 函 数 
与 图 8-3 的 一 样 。 我 们 做 的 唯一 修改 是 对 dg_echo 函 数 ， 将 由 接 下 来 的 4 幅 
图 共同 给 出 。 图 25-2 给 出 了 全 局 声明 。 





sigicdeochol.c 





1 include "unp.h" 
2 stazic int eockfdy 


3 Adeline QSTZR R /* size of input queue */ 
4 #3efine MAXDG aoce /* max datacrem size */ 


5 typedef struct | 
é veið 


Ads dala; /* p.r to actual datagram 4/ 
size = dg isn; /* length of datagram */ 
£ etracz sockaddr  *dq sea; /* ptr to sockaddr{} w/client's address */ 
$ Sccklen t dg salen; /* length of sockaddr{} */ 
10 ) n6; 


11 static DG dg[os-zE]; 


/* queue of datagrams to process */ 
12 etatac Lone cntreaa[CSIZE!1]: /* diagnoctic ccunter */ 
13 stazic iut igst; /* next one for main loop to process a/ 
l4 static int iput; /* naxt one for signal handler tc read into */ 
15 ctazic int nqueue; /* # on queue fcr main loop to procecoc */ 
16 sta-ic socklen_t clilen; /* max length of sockaddr[) */ 


17 stazíc voic sic io(-nt); 
12 stazic voic cic huz[inz): 
sigic/dgeohoOl.c 


图 25-2 ”全 局 声明 
己 收 取 数 据 报 队 列 


3-12 ”SIGI0 信 号 处 理 函 数 把 到 达 的 数据 报 放 入 一 个 队列 。 该 队列 

是 一 个 DG 结构 数组 ， 我 们 把 它 作为 一 个 环形 缓冲 区 处 理 。 每 个 p6 结 构 包 
括 指向 所 收取 数据 报 的 一 个 指针 、 该 数据 报 的 长 度 、 指 向 含有 客户 协议 
地 址 的 某 个 套 接 字 地 址 结构 的 一 个 指针 、 访 协议 地 址 的 大 小 。 静 态 分 

配 QsIZE 个 DG 结构 ， 我 们 将 在 图 25-4 中 看 到 ，dg_echo 函 数 调用 malloc 动 
态 分 配 所 有 数据 报 和 套 接 字 地 址 结构 的 内 存 空间 。 我 们 还 分 配 一 个 稍 后 
解释 的 诊断 用 计数 器 cntread。 图 25-3 展 示 了 这 个 D6 结构 数组 ， 其 中 假设 
第 一 个 元 素 指 问 一 个 150 字 节 的 数据 报 ， 与 它 关 联 的 套 接 字 地 址 结构 长 
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dg [QST ZE-1] 





图 25-3 ”用 于 存放 所 收取 数据 报 及 其 套 接 字 地 址 结构 的 数据 结构 
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数组 下 标 

13-15 iget 是 主 循环 将 处 理 的 下 一 个 数组 元 素 的 下 标 ，iput 是 信 
写 处 理 函 数 将 存放 到 的 下 一 个 数组 元 素 的 下 标 ，nqueue 是 队列 中 供 主 循 
环 处 理 的 数据 报 的 总 数 。 


图 25-4 给 出 了 主 服务 器 循环 ， 即 dg_echo 函 数 。 


sizio deeciat! c 


1S void 

2G 5g echn(inr &sne«fd arg, SA *pcliasdr, saocxeler t clilen_arg) 

ai ( 

22 int is 

23 consc int or = 1; 

24 sigset t  zercnask, newnasx, olcmesk; 

28 so-kfd = sockfd arg: 

2€ clílan - ciilan arg: 

27 for (i = 0; i < QSIZE: 241) { /* init quceuc ot burtero */ 
2C dal[i!.da dace - Mallcc(MAXDCI: 

2s dgfil -dg_sa = Maliac(clilsn) ; 

ac ay (4) .dg_salen = clilen; 

31 } 

32 igat = iput = nqueue = 0; 

33 Sicnal(SIGHUP, sig hup): 

34 Signal(SIGID, sig io): 

a5 Fcntlisnckf2, F SETOWH, cetpid()); 

ik loctlísOCkf$2, FLOASYNC, Eon); 

37 Toctlisockta, FIONBIO, án); 

38 £iacmpzyact (4zeromask) ; /* init three signal scts */ 
3S Sigemplyset (&cldmask) ; 

ac Sigemp-yset (&4ne«mask) : 

41 Sicaddset!Lrewnagk, SIGIQ); /* signal we want to block */ 
42 Sigprocmask (SIG BLOCK, &rewnask, &oldrask! ; 

i3 fob (Coo B3 d 

44 while {nqueve == 0) 

4t sigsusperid i &zercrask) ; /* wait for datagram to process */ 
46 /* anblock SIGIO */ 

17 Sigeroemack(SIS EZEIMASK, &£oldwmack, NULL,; 

ag Senstsicsockid. dcs[iact].dz Sata, dq{iact].adq_len, 9, 

S dg[igetl.2u sa, dalicetl.da salen): 

5c if (++iget a= QSIZE) 

51 iget = 9; 

53 /* clock SIGIO */ 

53 Sigerscemack {SIG BLOCK, &newmazk, &olcomsex]; 

54 nqusus--; 

55 } 

se } 


sigiwdgeciat !.c 
图 25-4 dg_echo 函 数 : 服务 器 主 处 理 循环 
初始 化 已 接收 数据 报 队 列 


27-32 ”把 套 接 字 描 述 符 保存 在 一 个 全 局 变量 中 ， 因 为 信号 处 理 函 
数 需要 它 。 初 始 化 已 接收 数据 报 队列 。 


668 
建立 信号 处 理 函 数 并 设置 套 接 字 标 志 


33-37 ”为 sSIGHUP (用 于 诊断 目的 ) 和 sI6I0 建 立信 号 处 理 函 数 。 使 
用 fcnt1 设 置 套 接 字 的 属 主 ， 使 用 ioct1 设 置信 号 驱动 和 非 阻 塞 式 MO 标 


我 们 早先 提 到 过 ，fcnt1 的 0_AsYNc 标 志 是 POSIX 的 信号 驱动 式 IO 指 
定 方式 ， 不 过 由 于 大 多 数 系 统 还 不 支持 它 ， 我 们 改 用 ioct1 取 代 。 尽 管 
大 多 数 系 统 确实 支持 使 用 fcnt1 的 0_NONBLocKk 标 志 设 置 非 阻塞 式 HO， 在 
这 儿 我 们 仍然 给 出 ioet1 方 法 。 


初始 化 信号 集 


38-41 ”初始 化 三 个 信号 集 : zeromask 〈 从 不 改变 ) 、oldmask Cid 
录 我 们 阻塞 sTfGTo 时 原来 的 信号 掩 码 ) 和 newmask。 使 用 sigaddset 打 
开 newmask 中 与 SIGI0 对 应 的 位 。 


LH 3EsreroJfF SEHE SE n] t 


42-45 ”调用 sigprocmask 把 进程 的 当前 信号 掩 码 保 存 到 oldmask 中 ， 
然后 把 newmask 逻 辑 或 到 当前 信号 撼 码 。 这 将 阻塞 sTGIo 并 返回 当前 信和 号 
手 码 。 接 着 进入 for 和 循环 ， 并 测试 nqueue 计 数 器 。 只 要 该 计数 器 为 0， 进 
程 就 无 事 可 做 ， 这 时 我 们 可 以 调用 sigsuspend。 该 POSIX 函 数 先 内 部 保 
存 当 前 信号 掩 码 ， 再 把 当前 信号 掩 码 设 置 为 它 的 参数 (zeromask) . BE 
然 zeromask 是 一 个 空 信 号 集 ， 因 而 所 有 信和 号 都 被 开通 。sigsuspend 在 进 
程 捕获 一 个 信号 并 且 该 信号 的 处 理 函 数 返回 之 后 才 人 返回 。〔 它 是 一 个 不 
寻常 的 闵 数 ， 因 为 它 总 是 返回 EINTR 错 误 。) 在 返回 之 前 sigsuspend 总 
是 把 当前 信号 掩 码 恢复 为 调用 时 刻 的 值 ， 在 本 例子 中 就 是 newmask 的 
值 ， 从 而 确保 sigsuspend 返 回 之 后 STGI0 继 续 被 阻塞 。 这 是 我 们 可 以 测试 
计数 器 nqueue 的 理由 ， 因为 我 们 知道 测试 它 时 siGIo 信 号 不 可 能 被 递 
交 。 














要 是 我 们 在 测试 nqueue 这 个 由 主 循环 和 信和 号 处 理 函 数 共享 的 变量 时 
SIGI0 未 被 阻塞 ， 那 么 会 发 生 什 么 呢 ? 我 们 可 能 测试 nqueue 时 发 现 它 为 
0， 但 是 刚 测试 完毕 sI6I0 信 号 就 递交 了 了， 导致 nqueue 被 设置 为 1。 我 们 
接着 调用 sigsuspend 进 入 睡眠 ， 这 样 实际 上 就 错过 了 这 个 信号。 除非 另 
有 信号 发 生 ， 否 则 我 们 将 永远 不 能 从 sigsuspend 调 用 中 被 唤醒 。 这 一 点 
类 似 我 们 在 20.5 节 讲解 过 的 竞争 状态 。 


解 阻塞 sTGIo 并 发 送 应 答 





46-51 ”调用 sigprocmask 把 进程 的 信号 掩 码 设置 为 先前 保存 的 值 
(oldmask) ， 从 而 解除 sTGTo 的 阻塞 。 然 后 调用 sendto 发 送 应 答 。 递 增 
iget 下 标 ， 若 其 值 等 于 DG 结构 数组 元 素数 目 则 将 其 值 置 回 0， 因 为 我 们 
把 该 数组 作为 环形 缓冲 区 对 待 。 注 意 : 修改 iget 时 我 们 不 必 阻 
蹇 sI6I0， 因 为 只 有 主 循环 使 用 这 个 下 标 ， 信 号 处 理 函 数 从 不 改动 它 。 


昌 塞 sr6I0 














52-54 阻塞 SITGI0， 递 减 nqueue。 修 改 nqueue 时 我 们 必须 阻 
塞 SIGI0， 因 为 它 是 主 循环 和 信和 号 处 理 函 数 共同 使 用 的 变量 。 我 们 在 循 
环 顶 部 测试 nqueue 时 也 需要 SITGIo 阻 塞 着 。 
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另 一 个 手段 是 干脆 去 掉 for 循 环 内 的 两 个 sigprocmask 调 用 ， 省 得 解 
阻塞 sTGIo 后 又 阻塞 它 。 这 么 做 的 问题 是 执行 整个 循环 期 间 SsTGIo 一 直 阻 
塞 着 ， 从 而 降低 了 信和 号 处 理 函 数 的 及 时 性 。 数 据 报 不 应 该 因为 如 此 变动 
而 丢失 《假设 套 接 字 接收 缓冲 区 足够 大 ) ， 但 是 sTGIo 信 号 辐 进 程 的 递 
交 将 在 整个 阻塞 期 间 一 直 被 拖延 。 编 写 执行 信号 处 理 的 应 用 程序 时 ， 努 
力 目 标 之 一 应 该 是 尽 可 能 地 减少 阻 团 信号 的 时 间 。 


图 25-5 给 出 的 是 sfGIo 的 信号 处 理 函 数 。 











Sigicfgechotl.c 
57 staLic void 
s& sig io(int signo! 


s9 | 

60 ssize t len; 

61 int read; 

oZ DG *p-r; 

53 for (nread = 0; ; } [ 

54 if (nqueue >= QSIZE) 

5 err_quit ("receive overflow"); 

KF ptr = édgliput]; 

57 etr-sdg salen - clilen; 

G6 len - zecvirom(sock£d, ztr-»dg deta, MAXDG, 9, 
S ptr-əđg_sa, &ptr- »dg : salen); 

70 if ilen < 0) { 

71 it (erro == BWOULDELCCK)}) 

72 break; /* all done; no nore queued to read */ 
77 2" se 

74 err cyci"recvfrom error’): 

75 ) 

7€ ptr-adg_len = len; 

77 arsad+ +; 

76 aquevuert; 

79 if (++iput >= QSIZE) 

30 iput = Ur 

A1 

32 cnt read [nread) ++; /* histogram of f datagrams read par signal */ 
32 


sigic/dgechot lc 


图 25-5”sI6GI0 处 理 函 数 


编写 本 信号 处 理 函 数 时 我 们 遇 到 的 问题 是 POSIX 信 号 通常 不 排队 。 
这 一 点 意味 看 如 果 我 们 在 信号 处 理 函数 中 执行 (期 间 内 核 确保 该 信号 被 
阻塞 》， 期 间 该 信号 又 发 生 了 2 次 ， 那 么 它 实 际 只 被 递交 1 次 。 


POSIX 提 供 一 些 排队 的 实时 信和 号， 不 过 诸如 siIGIo 等 其 他 信和 号 
不 排队 。 


证 我 们 考虑 下 述 情形 。 一 个 数据 报到 达 导 致 sTGIo 被 递交 。 它 的 信 
号 处 理 函 数 读 入 该 数据 报 并 把 它 放 到 供 主 循环 读 取 的 队列 中 。 然 而 在 信 
号 处 理 函 数 执行 期 间 ， 另 有 两 个 数据 报到 达 ， 导 致 SIfGIo 再 产生 两 次 。 
由 于 SIT6I0 被 阻塞 ， 当 它 的 信号 处 理 函 数 返 回 时 ， 该 处 理 函 数 仅仅 再 被 
调用 一 次 。 该 信号 处 理 函 数 的 第 二 次 执行 读 入 第 二 个 数据 报 ， 第 三 个 数 
据 报 则 仍然 留 在 套 接 字 接收 队列 中 。 第 三 个 数据 报 被 读 入 的 前 提 条 件 是 
有 第 四 个 数据 报到 达 。 当 第 四 个 数据 报到 达 时 ， 被 读 入 并 放 到 供 主 循环 
读 取 的 队列 中 的 是 第 三 个 而 不 是 第 四 个 数据 报 。 





既然 信号 是 不 排队 的 ， 开 启 信 号 驱动 式 1/O 的 描述 符 通 常 也 被 设置 
为 非 阻塞 式 。 这 个 前 提 下 ， 我 们 把 srGro 信 和 号 处 理 函 数 编写 成 在 一 个 循 
环 中 执行 读 入 操作 ， 直 到 该 操作 返回 EwouLDBLocK 时 才 结 束 循环 。 
Ts BÀ Sd dant HH 


64-65 ”如 果 p6 结 构 数 组 队列 已 满 ， 进 程 就 终止 。 当 然 处 理 这 种 情 
况 男 有 更 合适 的 方法 (例如 分 配额 外 的 缓冲 区 )〉) ， 不 过 就 我 们 的 简单 例 
子 不 如 干脆 终止 进程 。 


读 入 数据 报 


66-76 在 非 阻塞 套 接 字 上 调用 recvfrom。 下 标 为 iput 的 数组 元 素 用 
于 存放 读 入 的 数据 报 。 如 果 没 有 可 读 的 数据 报 ， 那 就 break 出 for 循 环 。 


递增 计数 顺和 下 标 


77-80 nread 是 一 个 计量 每 次 信号 递交 读 入 数据 报 数目 的 诊断 计数 
器 。nqueue 是 有 待 主 循环 处 理 的 数据 报 数目 。 


82 ”在 信号 处 理 函 数 返 回 之 前 ， 递 增 与 每 次 信号 递交 读 入 数据 报 数 
目 对 应 的 计数 器 。 当 sIGHUP 信 号 被 递交 时 ， 我 们 在 图 25-6 中 将 这 个 计数 
恬 数 组 的 内 容 显 示 为 诊断 信息 。 


sigic/degecho0l.c 


På slalic voir 

ES sig_hup(int n2) 

EG | 

ay iat 

E8 fcr 0; i <= OSIZE; i++) 

eS print’ (*ontread(td) = $ld\n", i, cntresd[:]); 


sicic/dgecho0l.c 














图 25-6 ”srIGHUP 信 号 处 理 函 数 


最 后 一 个 函数 是 sIGHUP 信 号 处 理 函 数 〈( 图 25-6) ， 它 显示 cntread 数 
组 的 内 容 。 该 数组 统计 以 每 次 读 入 数据 报 数目 为 下 标的 信号 递交 次 数 。 
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为 了 说 明 信 和 号 是 不 排队 的 ， 并 且 除 了 设置 套 接 字 的 信号 驱动 式 IO 








标志 之 外 ， 还 必须 把 套 接 字 设置 为 非 阻 塞 式 ， 我 们 与 6 个 客户 一 道 运行 
本 服务 器 。 每 个 客户 发 送 3645 行 让 服务 器 回 射 的 文本 ， 而 且 每 个 客户 都 
从 同一 个 shell 脚 本 以 后 台 方 式 局 动 ， 因 而 所 有 客户 几乎 在 同一 时 刻 局 

动 。 所 有 客户 终止 之 后 ， 我 们 加 服务 器 友 送 SIGHUP 信 号 ， 促 使 它 显 

示 cntread 数 组 内 容 。 





linux % udpserv01 
cntread[0] = 0 

cntread[1] 
cntread[2] 
cntread[3] 
cntread[4] 
cntread[5] 
cntread[6] 
cntread[7] 
cntread[8] 


大 多 数 情况 下 信和 号 处 理 函 数 每 次 被 调用 只 读 入 一 个 数据 报 ， 不 过 有 
些 情况 下 可 读 入 多 个 数据 报 。cntread[9] 计 数 器 不 为 0 是 可 能 的 : 这些 
信和 号 在 信号 处 理 函 数 正 在 执行 时 产生 ， 不 过 信和 号 处 理 函 数 的 本 次 执行 在 
返回 之 前 预先 读 入 了 对 应 这 些 信号 的 数据 报 。 当 信和 号 处 理 函 数 因 这 些 信 
号 的 提交 而 再 次 被 调用 执行 时 ， 已 经 没有 剩余 的 数据 报 可 以 读 入 了 。 最 
后 ， 我 们 可 以 验证 该 数组 元 素 的 加 权 总 和 
(15899x1+2099x2+515x3+57x4=21870) 等 于 6 (客户 数 日 ) FEV 
3645 〈 每 个 客户 的 发 送 的 文本 行 数 ) 。 





25.4 ”小 结 


埋 号 驱动 式 1O 就 是 让 内 核 在 套 接 字 上 发 生 “ 某 事 时 使 用 srero 信 号 
通知 进程 。 





e 对 于 已 连接 TCP 套 接 字 ， 可 以 导致 这 种 通知 的 条 件 为 数 众 多 ， 反 而 
使 得 这 个 特性 几 近 无 用 。 
E c MM ME LM 
zd. 
。 对 于 UDP 套 接 字 ， 这 种 通知 意味 着 或 者 到 达 一 个 数据 报 ， 或 者 到 达 
一 个 异步 错误 ， 这 两 种 情况 下 我 们 都 调用 recvfrom。 
我 们 把 早先 的 UDP 回 射 服务 器 程序 改 为 使 用 信号 驱动 式 WO， 所 用 
技巧 类 似 于 NTP， 尽 快 读 入 已 到 达 的 每 个 数据 报 以 获取 其 到 达 时 刻 的 精 
确 时 间 惟 ， 然 后 将 它 置 于 某 个 队列 供 后 续 处 理 。 
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习题 


25.1 ”图 25-4 中 的 循环 有 如 下 男 一 个 设计 : 


for Mr E! 
Sigprocmask(SIG BLOCK, &newmask, &oldmask); 
while (nqueue == 0) 
sigsuspend(&zeromask); /* wait for datagram to process */ 
nqueue--; 


/* unblock SIGIO */ 
Sigprocmask(SIG SETMASK, &oldmask, NULL); 


Sendto(sockfd, dg[iget].dg data, dg[iget].dg len, 0, 
dg[iget].dg sa, dg[iget].dg salen); 


if (++iget >= QSIZE) 
iget - 0; 


这 样 修改 可 以 接受 吗 ? 
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第 26 章 ”线程 


26.1 概述 


时 ， 





在 传统 的 UNIX 模 型 中 ， 当 一 个 进程 需要 另 一 个 实体 来 完成 共事 
它 就 fork 一 个 子 进程 并 让 子 进程 去 执行 处 理 。Unix 上 的 大 多 数 网 络 


服务 器 程序 就 是 这 么 编写 的 ， 正 如 我 们 在 早先 讲解 的 并 发 服务 器 程序 例 
子 中 看 到 的 那样 : 父 进程 accept 一 个 连接 ，fork 一 个 子 进程 ， 该 子 进程 
处 理 与 该 连接 对 端的 客户 之 间 的 通信 。 


尽管 这 种 范式 多 少年 来 一 直 用 得 挺 好 ，fork 调 用 却 存 在 一 些 问题 。 


fork 是 昂贵 的 。fork 要 把 父 进 程 的 内 存 映像 复制 到 子 进程 ， 并 在 子 
进程 中 复制 所 有 摘 述 符 ， 如 此 等 等 。 当 今 的 实现 使 用 称 为 写 时 复制 
(copy-on-write) 的 技术 ， 用 以 避免 在 子 进 程 切 实 需要 上 自己 的 副本 
之 前 把 父 进程 的 数据 空间 复制 到 子 进程 。 然 而 即便 有 这 样 的 优化 措 
施 ，fork 仍 然 是 昂 贯 的 。 

fork 返 回 之 后 父子 进程 之 间 信 息 的 传递 需要 进程 间 通 信 CPC) 机 
制 。 调 用 fork 之 前 父 进程 加 尚未 存在 的 子 进程 传递 信息 相当 容易 ， 

因为 子 进程 将 从 父 进程 数据 空间 及 所 有 描述 符 的 一 个 副本 开始 运 

行 。 然 而 从 子 进 程 往 父 进程 返回 信息 却 比 较 费 力 。 


线程 有 助 于 解决 这 两 个 问题 。 线 程 有 时 称 为 轻 权 进程 lightweight 

















process) ， 因 为 线程 比 进程 “权重 轻 些 ”。 也 束 是 说 ， 线 程 的 创建 可 能 比 
进程 的 创建 快 10 一 100 倍 。 


Jg 











同一 进程 内 的 所 有 线程 共享 相同 的 全 局 内 存 。 这 使 得 线程 之 间 易 于 
信息 ， 然 而 伴随 这 种 简易 性 而 来 的 却 是 同步 (synchronization〉 问 
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同一 进程 内 的 所 有 线程 除了 共享 全 局 变量 外 还 共有 至 : 








进程 指令 ; 

大 多 数 数 据 ; 

打开 的 文件 〈 即 描述 符 ) ; 
信号 处 理 函 数 和 信和 号 处 置 ; 
当前 工作 目录 ; 

用 户 ID 和 组 ID。 


不 过 每 个 线程 有 各 上 自 的 : 


线程 ID; 

寄存 器 集合 ， 包 括 程序 计数 器 和 栈 指针 ; 
栈 《〈 用 于 存放 局 部 变量 和 返回 地 址 ) ; 
errno; 

fcc TERS; 

优先 级 。 


束 像 我 们 在 11.18 市 讨论 过 的 那样 ， 信 号 处 理 函 数 可 以 类 比 作 茶 种 
线程 。 这 就 是 说 在 传统 的 UNIX 模 型 中 ， 我 们 有 主 执行 流 《〈 也 称 为 主 控 
制 流 ， 即 一 个 线程 )》 和 某 个 信号 处 理 函 数 〈 另 一 个 线程 ) 。 如 果 主 执行 
流 正 在 更 改 茶 个 链表 时 发 生 一 个 信号 ， 而 且 该 信号 的 处 理 函 数 也 试图 更 
改 该 链表 ， 那 么 后 果 通 常 是 灾难 性 的 。 主 执行 流 和 信号 处 理 函 数 共 享 同 
样 的 全 局 变量 ， 不 过 它们 有 各 目的 栈 。 


我 们 在 本 章 讲 解 的 是 POSIX 线 程 ， 也 称 为 Pthread。POSIX 线 程 作为 
POSIX 标 准 的 一 部 分 在 1995 年 得 到 标准 化 ， 大 多 数 UNIX 版 本 将 来 会 支 
持 这 类 线程 。 我 们 将 看 到 所 有 Pthread 函 数 都 以 pthread_ 打头 。 本 章 只 是 
线程 的 一 个 引子 ， 则 在 使 得 我 们 能 够 在 网 络 程序 中 使 用 它们 。 关 于 线程 
的 更 多 细节 参见 [Butenhof 1997] . 











26.2  AK£ETEERA: 创建 和 终止 


本 节 讲 解 5 个 基本 线程 函数 。 在 随后 两 节 中 ， 我 们 将 利用 这 些 函 数 
把 我 们 的 TCP 客 户 /服务 器 程序 重新 编写 成 改 用 线程 取代 fork。 


26.2.1 pthread createrK ZA 


当 一 个 程序 由 exec 启 动 执行 时 ， 称 为 初始 线程 Cinitial thread) 或 主 
线程 Cmain thread) 的 单个 线程 就 创建 了 。 其 余 线程 则 
IHpthread createrK Zi fi!) Œ . 
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#include <pthread.h> 


int pthread create(pthread t *tid, const pthread attr t *attr, 
void *(*func)(void *), void *arg); 


返回 : 若 成 功 则 为 9， 若 出 错 则 为 正 的 




















Exxx 值 


一 个 进程 内 的 每 个 线程 都 由 一 个 线程 ID (thread ID) 标识， 其 数据 
类 型 为 pthread_t (往往 是 unsigned int) 。 如 果 新 的 线程 成 功 创建 ， 其 
ID 就 通过 tid 指 针 返 回 。 


每 个 线程 都 有 许多 属性 (attribute) : 优先 级 、 初 始 栈 大 小 、 是 否 
应 该 成 为 一 个 守护 线程 ， 等 等 。 我 们 可 以 在 创建 线程 时 通过 初始 化 一 个 
取代 默认 设置 的 pthread_attr_t 变 量 指 定 这 些 属性 。 通 常情 况 下 我 们 采 
纳 默认 设置 ， 这 时 我 们 把 attr 参 数 指定 为 空 指针 。 


创建 一 个 线程 时 我 们 最 后 指定 的 参数 是 由 该 线程 执行 的 函数 及 其 参 
数 。 该 线程 通过 调用 这 个 函数 开始 执行 ， 然 后 或 者 显 式 地 终止 〈 通 过 调 
用 pthread_exit) ， 或 者 隐 式 地 终止 〈 通 过 让 该 函数 返回 ) 。 该 函数 的 
地 址 由 func 参 数 指 定 ， 该 函数 的 唯一 调用 参数 是 指针 arg。 如 果 我 们 需要 
给 该 函数 传递 多 个 参数 ， 我 们 就 得 把 它们 打包 成 一 个 结构 ， 然 后 把 这 个 
结构 的 地 址 作为 单个 参数 传递 给 这 个 起 始 函数 。 














注意 func 和 arg 的 声明 。func 所 指 函 数 作 为 参数 接受 一 个 通用 指针 
(void *) ， 义 作为 返回 值 返 回 一 个 通用 指针 (void *O 。 这 使 得 我 们 
可 以 把 一 个 指针 〈 它 指向 我 们 期 望 的 任何 内 容 〉 传 递 给 线程 ， 又 允许 线 
程 运 回 一 个 指针 〈 它 同样 指向 我 们 期 望 的 任何 内 容 〉。 


通 弟 情况 下 Pthread 函 数 的 返回 值 成 功 时 为 0， 出 错时 为 某 个 非 0 值 。 
与 套 接 字 函数 及 大 多 数 系 统 调用 出 错时 返回 -1 并 置 errno 为 某 个 正 值 的 
做 法 不 同 的 是 ，Pthread 函 数 出 错时 作为 函数 返回 值 返回 正 值 错误 指示 。 
举例 来 说 ， 如 果 pthread_create 因 在 线程 数目 上 超过 某 个 系统 限制 而 不 
能 创建 新 线程 ， 函 数 返回 值 将 是 EAGAIN。Pthread 函 数 不 设 置 errno。 成 
功 为 0 出 错 为 非 0 这 个 约定 不 成 问题 ， 因 为 <sysyerrno.h> 头 文件 中 所 有 
的 Exxx 值 都 是 正 值 。0 值 从 来 不 被 赋予 任何 Exxx 名 字 。 








26.2.2 ”pthread_join 函 数 


我 们 可 以 通过 调用 pthread_join 等 待 一 个 给 定 线程 终止 。 对 比 线程 
和 UNIX 进 程 ，pthread_create 类 似 于 fork，pthread_join 类 似 于 
waitpid。 

#include <pthread.h> 

int pthread_join(pthread_t *tid, void **status); 


返回 : 若 成 功 则 为 9， 若 出 错 则 为 正 的 EXxx 值 





677 
我 们 必须 指定 要 等 待 线程 的 td。 不 地 的 是 ，Pthread 没 有 办 法 等 待 任 
意 一 个 线程 《类 似 指定 进程 ID 参数 为 -1 调用 waitpid) 。 我 们 将 在 讨论 
图 26-14 时 回 到 本 问题 。 


如 果 status 指 针 非 空 ， 来 自 所 等 待 线 程 的 返回 值 〈 一 个 指 癌 某 个 对 
象 的 指针 ) 将 存 入 由 status 指 向 的 位 置 。 


26.2.3 pthread_self pf 2 
每 个 线程 都 有 一 个 在 所 属 进 程 内 标识 自 吴 的 ID 。 线 程 ID 


由 pthread_create 返 回 ， 而 且 我 们 已 经 看 到 pthread_join 使 用 它 。 每 个 
线程 使 用 pthread_self 获 取 自 身 的 线程 ID。 





#include <pthread.h> 


pthread_t pthread_self(void); 

















返回 : 调用 线程 的 线程 ID 








对 比 线程 和 UNIX 进 程 ，pthread_self 类 似 于 getpid。 
26.2.4 pthread detachrK 2 


一 个 线程 或 者 是 可 汇合 的 〈joinable， 默 认 值 ) ， 或 者 是 脱离 的 
(detached) 。 当 一 个 可 汇合 的 线程 终止 时 ， 它 的 线程 ID 和 退出 状态 将 
留存 到 另 一 个 线程 对 它 调 用 pthread_join。 脱 离 的 线程 却 像 守 护 进 程 ， 
当 它 们 终止 时 ， 所 有 相关 资源 都 被 释放 ， 我 们 不 能 等 竺 它们 终止 。 如 果 
一 个 线程 需要 知道 男 一 个 线程 什么 时 候 终 止 ， 那 就 最 好 保持 第 二 个 线程 
的 可 汇合 状态 。 


pthread_detach 函 数 把 指定 的 线程 转变 为 脱离 状态 。 
#include <pthread.h> 
int pthread_detach(pthread_t tid); 


el: 若 成 功 则 为 9， 若 出 错 则 为 正 的 








Es 


Exxx1H 


本 函数 通 第 由 想 让 自己 脱离 的 线程 调用 ， 就 如 以 下 语句 : 


pthread detach(pthread self()); 


26.2.5 pthread exitrK ZW 


让 一 个 线程 终止 的 方法 之 一 是 调用 pthread_exit。 
#include <pthread.h> 


void pthread exit(void *status); 

















不 返回 到 调用 者 
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如 果 本 线程 未 兽 脱 离 ， 它 的 线程 ID 和 退出 状态 将 一 直 留 存 到 调用 进 
程 内 的 某 个 其 他 线程 对 它 调 用 pthread_join。 


指针 status 不 能 指向 局 部 于 调用 线程 的 对 象 ， 因 为 线程 终止 时 这 样 
的 对 象 也 消失 。 


让 一 个 线程 终止 的 男 外 两 个 方法 是 。 


e 启动 线程 的 函数 〈 即 pthread_create 的 第 三 个 参数 ) 可 以 返回 。 既 
然 该 函数 必须 声明 成 返回 一 个 void 指 针 ， 它 的 返回 值 就 是 相应 线程 
的 终止 状态 。 

。 如 采 进 程 的 main 函 数 返 回 或 者 任何 线程 调用 了 exit， 整 个 进程 就 终 
止 ， 其 中 包括 它 的 任何 线程 。 


26.3 4HH]£ETEHJstr clirK2W 


e dum T 
新 编写 成 改 用 线程 。 回 顾 一 下 ， 我 们 提供 了 该 函数 的 多 个 其 他 版 本 : 
初 是 图 5-5 中 使 用 停 一 等 协议 的 版 本 (我 们 讨论 过 该 版 本 远 非 适 合 批量 ” 
输入 ) ;接着 是 图 6-13 中 使 用 阻塞 式 1HO 和 select 函 数 的 版 本 ; 后 来 是 从 
图 16-3 开 始 的 使 用 非 阻塞 式 1O 的 版 本 。 图 26-1 展 示 了 该 函数 线程 版 本 的 


设计 。 


p- J 4 
copyto 


标准 输入 线程 





L| Jem 


标准 输出 
































图 26-1 ”使 用 线程 重新 编写 str_cli 

















图 26-2 给 出 了 使 用 线程 的 str_cli 函 数 。 


threads/strolithread.c 





1 &iuclude "ur.pLliread try 
2 void  *copyro(wodid *): 


3 Static int sockfd; /* globsl fcr both threads tc access */ 
4 szetic FILE wz 


5 void 

€ str Cll(P-LE *fp arg, int scckfd arg) 

71 

6 caat recvline[MAXLINE]. 

9 pthread t tid; 

10 scckfá = sockf= arg; /* copy arguments to exterrals */ 
11 tr = Lp arg; 

12 Pthread_create(&tid, NULL, copyto, NULL); 

13 wiile i(Readline(sockfd, reeviine, MAXLINE!) > 0) 

14 Fpute (recvline, stdádout;; 

1s; 

16 void * 

17 cxpytatveiss arg) 

18 | 

19 cnar serdline IMAXLINE] ; 

20 waile iFoets{sendline, MAXLINB. fp) ;= NULL! 

21 Writen(socxfd, sendlire, strlen(sendlire);: 

ad sautdcwn!sockfZ, SHUL NK); /* BOF 2n stdin, send FIN */ 
zJ returniNU.L:; 

24 /* return (i.e., thread terminates) when ECF on stdin */ 


threadustoAuhread r 





图 26-2 ”使 用 线程 的 str_c1Li 函 数 





unpthread.h 头 文件 


1 这 是 我 们 首次 磁 到 unpthread.h 头 文件 。 它 包含 我 们 通常 的 unp.h 
头 文件 ， 接 着 包含 POSIX 的 <pthread.h> 头 文件 ， 然 后 定义 我 们 
为 pthread_XXX 函 数 编写 的 包 庄 函数 〈1.4 节 ) 的 函数 原型 ， 这 些 包 庄 函 
数 都 以 Pthread_ 打 头 。 


把 参数 保存 在 外 部 变量 中 


10-11 我 们 将 要 创建 的 线程 需要 str_cli 的 2 个 参数 : fp CHAT 
件 的 标准 MO 库 FILE 指 针 ) 和 sockfd《〈 连 接 到 服务 器 的 TCP 套 接 字 描述 
TP) 。 为 简单 起 见 ， 我 们 把 这 2 个 参数 值 保存 到 外 部 变量 中 。 另 一 个 技 
巧 是 把 这 两 个 值 放 到 一 个 结构 中 ， 然 后 把 指向 这 个 结构 的 一 个 指针 作为 
参数 传递 给 我 们 将 要 创建 的 线程 。 
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创建 新 线程 


i2 ”创建 线程 ， 新 线程 ID 返回 到 tid 中 。 由 新 线程 执行 的 函数 
是 copyto。 没 有 参数 传递 给 该 线程 。 


主线 程 循环 : 从 套 接 字 到 标准 输出 复制 


13-14 ”主线 程 调 用 readline 和 fputs， 把 从 套 接 字 读 入 的 每 个 文本 
行 复制 到 标准 输出 。 


终止 


15 ” 当 str_cli 函 数 返 回 时 ，main 了 水 数 通 过 调用 exit 终 止 进程 (5.4 
"CHO ， 进 程 内 的 所 有 线程 也 随 之 被 终止 。 通 常情 况 下 ，copyto 线 程 在 从 
标准 输入 读 到 EOF 时 已 经 先 于 main 函 数 的 exit 调 用 终止 。 然 而 要 是 发 生 
服务 器 过 早 终 止 之 事 〈5.12 节 ) ， 尚 未 读 入 EOF 的 copyto 线 程 就 得 
由 main 函 数 调 用 exit 来 终止 。 
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copyto 线 程 


16-25 ”该 线程 只 是 把 读 和 目标 准 输入 的 每 个 文本 行 复制 到 套 接 字 。 
当 在 标准 输入 上 读 得 EOF 时 ， 它 通过 调用 shutdown 从 套 接 字 送出 FIN,， 
然后 返回 。 从 局 动 该 线程 的 函数 return 来 终止 该 线程 。 


我 们 在 16.2 节 末尾 提供 了 用 于 str_cli 函 数 不 同 版 本 的 5 个 实现 技术 
的 性 能 测量 结果 。 我 们 看 到 ， 刚 才 给 出 的 线程 版 本 花费 8.5 秒 钟 ， 略 微 
快 于 使 用 fork 的 版 本 《正如 所 料 ) ， 不 过 慢 于 非 阻 塞 式 IO 的 版 本 。 然 
而 对 比 非 阻塞 式 VO 版 本 〈16.2 节 ) 的 复杂 性 和 线程 版 本 的 简单 性 ， 我 们 
依然 推荐 使 用 线程 而 不 是 非 阻 塞 式 IO。 








26.4 ”使 用 线程 的 TCP 回 射 服务 器 程序 


现在 我 们 重新 编写 图 5-2 中 的 TCP 回 射 服务 器 程序 ， 改 成 为 每 个 客户 
使 用 一 个 线程 ， 而 不 是 为 每 个 客户 使 用 一 个 子 进程 。 我 们 同样 使 用 自己 
pd 图 26-3 给 出 了 本 服务 器 程 
Te 


ieeacstzeserv.c 





L sinclude "unptlireasd Li" 
2 static void *coit (void *): f* each thread executes this fonction */ 
3 int 
4 main(int argc, char **argv) 
int lzstenfd. connfd; 
pthread t tid; 


A 
> 

7 

3 socklen t addrlen, len: 
E] struct socxadir *cliaddr: 


10 i= (erage == 2) 


11 l-sten£d = Tep_listen(NULL, aàrzzv|l], é&addrlen); 

12 else if (arg= == 3! 

13 lstenfd = Top TYisten(argz(1], argus [2], Sadlirlen? ; 
14 else 

15 err quit('usage: tepserv01 I <host> | «service or port>"]; 
16 clia2dr = MFallcc(add-leu!; 

17 for (3:3) { 

lë len = addrlen; 

19 connEd = Accept(listenfdà, cliacdr, &ler); 

20 Fthread create(&tid, NULL, &doit, (vcic *) connfd): 
21 ) 

aa ] 


23 static vc:d + 
24 doit (void *argl 


25 | 

26 Pthread Zetach(pthread &Eelt(]); 

25 str ecko((lint) arg}; /* same function as before */ 
28 Close ( (int) un): /^ dow with connected socket */ 
29 return (NULL) ; 

30 } 


threads<Atopserv01.c 


图 26-3 ”使 用 线程 的 TCP 回 射 服 务 器 程序 〈 参 见习 题 26.5) 








创建 线程 


17-21 accept 返回 之 后 ， 改 为 调用 pthread_create 取 代 调 用 fork。 
我 们 传递 给 doit 函数 的 唯一 参数 是 已 连接 套 接 字 摘 述 符 connfd。 


我 们 把 整数 描述 符 connfd 类 型 强制 转换 成 void 指针 。ANSI C 并 不 保 
证 这 么 做 能 够 起 作用 。 只 有 在 整数 的 大 小 小 于 或 等 于 指针 的 大 小 的 系统 
上 ， 这 样 的 类 型 强制 转换 才能 起 作用 。 所 幸 的 是 大 多 数 UNIX 实 现 具 备 
这 个 特征 《图 1-17) 。 我 们 稍 后 还 要 讨论 这 一 点 。 


线程 函数 


23-30 doit 是 由 线程 执行 的 函数 。 线 程 首先 让 自 身 脱 离 ， 因 为 主 
线程 没有 理由 等 待 它 创 建 的 每 个 线程 。 然 后 调用 图 5-3 中 的 str_echo 思 
数 。 访 函数 返回 之 后 ， 我 们 必须 close 已 连接 套 接 字 ， 因 为 本 线程 和 主 
线程 共享 所 有 的 描述 符 。 对 于 使 用 fork 的 情形 ， 子 进程 就 不 必 close 已 
连接 套 接 字 ， 因 为 子 进程 旋即 终止 ， 而 所 有 打开 的 描述 符 在 进程 终止 时 
都 将 被 关闭 〈 参 见习 题 26.2) 。 


还 要 注意 的 是 ， 主 线程 不 关闭 已 连接 套 接 字 ， 而 在 调用 fork 的 并 发 
服务 器 程序 中 我 们 却 总 是 反 关 做。 这 是 因为 同一 进程 内 的 所 有 线程 共享 
全 部 描述 符 ， 要 是 主线 程 调用 close， 它 就 会 终止 相应 的 连接 。 创 建新 
线程 并 不 影响 已 打开 描述 符 的 引用 计数 ， 这 一 点 不 同 于 fork。 


本 程序 中 有 一 个 微妙 的 错误 ， 我 们 将 在 26.5 节 详细 讲解 。 你 能 指出 
这 个 错误 吗 ? (见习 题 26.5) 


26.4.1 给 新 线程 传递 参数 
我 们 提 到 过 图 26-3 中 把 整数 变量 connfd 类 型 强制 转换 成 void 指针 并 


en 
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首先 注意 我 们 不 能 简单 地 把 connfd 的 地 址 传递 给 新 线程 。 也 就 是 说 
如 下 代码 并 不 起 作用 。 


main(int argc, char **argv) 
t 


int listenfd, connfd; 


Tor (5; 5; )t1 
len - addrlen; 


connfd - Accept(listenfd, cliaddr, &len); 


Pthread create(&tid, NULL, &doit, &connfd); 


} 

static void * 

doit(void *arg) 
int connfd; 


connfd = *((int *) arg); 

Pthread S detaeli(BEhnead s self()); 

str echo(connfd); /* same function as before */ 
Close(connfd); /* done with connected socket */ 
return(NULL); 


MANSI C 和 角度 看 这 是 可 以 接受 的 : ANSI C 保 证 我 们 能 够 把 一 个 整 
数 指针 类 型 强制 转换 为 void *， 然 后 把 这 个 〈void *) 指针 类 型 强制 转 
换 回 原来 的 整数 指针 。 问 题 就 出 在 这 个 整数 指针 指向 什么 上 


主线 程 中 只 有 一 个 整数 变量 connfd， 每 次 调用 accept 该 变量 都 会 被 
复写 以 一 个 新 值 ( 己 连接 描述 符 ) 。 因 此 可 能 发 生 下 述 情况 。 


e accept 返回 ， 主 线程 把 返回 值 〈 璧 如 说 新 的 描述 符 是 5) 存 
入 connfd 后 调用 pthread_ create。pthread_create 的 最 后 一 个 参数 
是 指 同 connfd 的 指针 而 不 是 connfd 的 内 容 。 
e Pthread 函 数 库 创 建 一 个 线程 ， 并 准备 调度 doit 函 数 启动 执行 。 
Fi KE Boh H Ee CE D UE Fe TP ie (1 2 8l RS 
行 。accept 返 回 ， 主 线程 把 返回 值 〈 璧 如 说 新 的 描述 符 现 在 是 6 ) 
存 入 connfd 后 调用 pthread_create。 


尽管 主线 程 共 创建 了 两 个 线程 ， 但 是 它们 操作 的 都 是 存放 在 connfd 
中 的 最 终 值 (我 们 假设 是 6) 。 问 题 出 在 多 个 线程 不 是 同步 地 访问 一 个 
共享 变量 (以 取得 存放 在 connfd 中 的 整数 值 )。 在 图 26-3 中 ， 我 们 通过 
把 connfd 的 值 (而 不 是 指向 该 变量 的 一 个 指针 ) 传递 给 pthread_create 
来 解决 本 问题 。 按 照 C 回 被 调用 函数 传递 整数 值 的 方式 〈 把 该 值 的 一 个 
副本 推 入 被 调用 函数 的 栈 中 ) ， 这 个 解决 办 法 是 可 行 的 。 
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图 26-4 给 出 了 解决 本 问题 的 更 好 办 法 。 





threadvitcoserv02.c 





1 include "uziptliread. ti" 


2 static void *coit(vcid *); /* each thread executes thie function */ 
3 in! 

4 wain(int arcc, char **argv) 

5í 

S int listenfd, *iptr; 

7 thresd t tid; 

8 sockler t addrlen, len; 

9 Struct sockaddr *cliaddr; 


1n if (argc zz 2) 


11 listenfd = Tcp lieten(M.L., argv[i), &sdórlen); 

12 else if (argc == 3) 

15 listenfd = Tcp listen(argv 1]. argv[2], &addrlen'; 
14 else 

15 err quit('usage: tcpservUül [ <host> ] <service or port>"); 
16 cliaddr = Mallcc(addrlen!; 

17 for (;;) (| 

16 len = addrlen; 

19 iptr = Mallocisizeof(int)); 

20 Riptr = Accepr(listsnfd, cliaddr, lan); 

21 Pthread create (tid, NULL, adoit, iptr); 

22 ) 

23 ] 


ME. 


24 szatic void * 
25 doit(voi$i *arg! 


26 | 

21 int coumfd; 

28 connfd = *([int *) arg'; 

29 f rew{arg) + 

30 Pthreac_detach(pthread_self{}); 

31 str_echo(connfd) ; /* same fimction as before */ 

32 Close (cornnfd) ; /*^ Cone with cocmected sucker ^/ 
33 return (NULL) ; 

34 ] 


ihreacs/topservüz.c 


图 26-4 ”使 用 线程 且 参 数 传递 更 具 移 植 性 的 TCP 回 射 服务 器 程序 


17-22 每 当 调 用 accept 时 ， 我 们 首先 调用 malloc 分 配 一 个 整数 变量 
的 内 存 空 间 ， 用 于 存放 有 待 accept 返 回 的 已 连接 描述 符 。 这 使 得 每 个 线 
程 都 有 各 自 的 已 连接 描述 符 副 本 。 


28-29 线程 获取 已 连接 描述 符 的 值 ， 然 后 调用 free 释 放 内 存 空 








间 。 





malloc 和 和 free 这 两 个 函数 历来 是 不 可 重 入 的 。 换 句 话 说 ， 在 主线 程 
正 处 于 这 两 个 函数 之 一 的 内 部 处 理 期 间 ， 从 茶 个 信号 处 理 函 数 中 调用 这 
两 个 函数 之 一 有 可 能 导致 灾难 性 的 后 果 ， 这 是 因为 这 两 个 函数 操纵 相同 








的 静态 数据 结构 。 既 然 如 此 ， 我 们 如 何 才 能 在 图 26-4 中 调用 这 两 个 函数 
We? POSIX 要 求 这 两 个 函数 以 及 许多 其 他 函数 都 是 线程 安全 的 〈thread- 
人 
司 步 达 到 。 
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26.4.2 ”线程 安全 函数 


除了 图 26-5 中 列 出 的 函数 外 ，POSIX.1 要 求 由 POSIX.1 和 ANS 标 准 定 
义 的 所 有 函数 都 是 线程 安全 的 。 


不 必 线 程 安全 的 版 本 必须 线程 安全 的 版 本 ig OFF 
asctire asctimse I 
ctermic 仅 当 和 参数 非 空 时 才 是 线程 安全 的 
clime clime r 
cetc_unlocked 
ectchar_unlocked 
cetgrid getgric_r 








getgrnam ge-grnam r 
get login ge-login r 


cetpanam ge-pwnaw r 
cetpwuid ge-pwuid r 
cmtime qmzime x 
localtims localtive r 
putc unlocked 

putckar unlocked 





rand rand r 
readdir readdir r 
etrtok etrtok zx 
tmpnam 仅 当 参数 非 罕 时 才 是 线程 安全 的 
ttynare ttyname r 
gethost YYY 
cetnsetkXY 
cetprctoYXXV 
getssrv XXX 


inet ntoa 





图 26-5 ”线程 安全 函数 


不 季 的 是 ，POSIX 未 就 网 络 编 程 API 函 数 的 线程 安全 性 作出 任何 规 
定 。 本 表 中 最 后 5 行 来 源 于 Unix 98。 我 们 在 11.18 节 讨论 过 
gethostbyname 和 gethostbyaddr 的 不 可 重 入 性 质 。 我 们 提 到 说 : 尽管 一 
些 三 家 定义 了 这 两 个 函数 以 _r 结 尾 其 名 字 的 线程 安全 版 本 ， 不 过 这 些 线 
程 安全 函数 没有 标准 可 循 ， 应 该 避免 使 用 。 图 11-21 汇 总 了 所 有 不 可 重 
Afi get XXX AŽ. 
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我 们 从 图 26-5 看 到 ， 让 一 个 函数 线程 安全 的 共通 技巧 是 定义 一 个 名 
字 以 r 结 尾 的 新 函数 。 其 中 两 个 函数 (ctermid 和 tmpnam) 的 线程 安全 条 
件 是 ， 调 用 者 为 返回 结果 预先 分 配 空间 ， 并 把 指向 该 空间 的 指针 作为 参 
数 传递 给 函数 。 


265 ”线程 特定 数据 


把 一 个 未 线程 化 的 程序 转换 成 使 用 线程 的 版 本 时 ， 有 时 会 磁 到 因 其 
中 有 函数 使 用 静态 变量 而 引起 的 一 个 常见 编程 错误 。 和 许多 与 线程 相关 
的 其 他 编程 错误 一 样 ， 这 个 错误 造成 的 故障 也 是 非 确定 的 。 在 无 需 考 虑 
重 入 的 环境 下 编写 使 用 静态 变量 的 函数 无 可 非议 ， 然 而 当 同一 进程 内 的 
不 同 线程 (信号 处 理 函 数 也 视 为 线程 》 几 乎 同时 调用 这 样 的 函数 时 就 可 
能 会 有 问题 发 生 ， 因 为 这 些 函 数 使 用 的 静态 变量 无 法 为 不 同 的 线程 保存 
各 目的 值 。 图 3-18 给 出 的 readline 函 数 版 本 就 是 这 样 的 一 个 例 于 。 访 版 
本 是 图 3-17 中 的 同名 函数 的 性 能 加 速 版 本 ， 它 调用 的 my_read 函 数 使 用 3 
个 静态 变量 。 这 些 静 态 变 量 是 为 处 理性 能 加 速 而 增设 的 。 中 这 个 编程 错 
误 是 在 将 现 有 的 函数 转换 成 在 线程 环境 中 运行 时 经 癌 碰 到 的 一 个 问题 
并 有 多 个 解决 办 法 。 














o 使 用 线程 特定 数据 。 这 个 办 法 并 不 人 简单， 而 且 转 换 成 了 只 能 在 支持 
线程 的 系统 上 工作 的 函数 。 本 办 法 的 优点 是 调用 顺序 无 需 变 动 ， 所 
有 变动 都 体现 在 库 函 数 中 而 非 调用 这 些 函 数 的 应 用 程序 中 。 我 们 将 
在 本 节 靠 后 给 出 一 个 使 用 线程 特定 数据 达成 线程 安全 的 readline 版 


e 改变 调用 顺序 ， 由 调用 者 把 readline 的 所 有 调用 参数 封装 在 一 个 结 
构 中 ， 并 在 该 结构 中 存 入 出 自 图 3-18 的 静态 变量 。 这 个 办 法 也 曾经 
使 用 过 ， 图 26-6 给 出 了 新 的 结构 和 新 的 函数 原型 。 


typedef struct [ 


int read fd; /* caller's descriptor to read from */ 
char *read ptr; /* caller's buffer to read into */ 
size t read_maxlen; /* caller's max 4bytes to read 4/ 
/* next three are used internally by the function */ 
int rl cnt; /* initialize to 0 */ 
char *rl bufptr; /* initialize to rl buf */ 
char rl but [MAXT iTNE)] ; 
* Rline; 
void readline rinit(int, void *, size t, Rline *); 


ssize t readline r(Rline *); 
ssize t Readline r(Rline *); 











图 26-6 readline 可 重 入 版 本 的 数据 结构 及 函数 原型 





这 些 新 函数 在 文 持 线程 和 不 文 持 线程 的 系统 上 都 可 以 使 用 ， 不 过 调 
用 readline 的 所 有 应 用 程序 都 必须 修改 。 


e 改变 接口 的 结构 ， 避 免 使 用 静态 变量 ， 这 样 函数 就 可 以 是 线程 安全 
的 。 对 于 readline 例 子 来 说 ， 这 相当 于 忽略 图 3-18 中 引入 的 性 能 加 
速 ， 回 到 图 3-17 的 较 老 版 本 。 既 然 我 们 说 个 这 个 较 老 版 本 极为 低 
效 ， 这 个 办 法 不 一 定 行 得 通 。 


使 用 线程 特定 数据 是 使 得 现 有 函数 变 为 线程 安全 的 一 个 肖 用 技巧 。 
在 讲解 操纵 线程 特定 数据 的 Pthread 函 数 之 前 ， 我 们 先 讲述 这 个 概念 本 号 
和 一 个 可 能 的 实现 ， 因 为 这 些 函 数 看 起 来 比 实际 的 还 要 复杂 。 
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部 分 复杂 性 源 于 许多 关于 线程 使 用 的 教材 都 把 对 线程 特定 数据 的 讲 
解 写 得 读 起 来 像 是 在 摘 述 Pthreads 标 准 本 喘 ， 把 键 一 值 (key-value) 对 
Alpe Ckey) 作为 不 透明 对 象 〈opaque object) 来 讨论 。 我 们 以 索引 
(index) 和 指针 Cpointer) 来 刻 划 线程 特定 数据 ， 因 为 普通 的 实现 把 一 
个 小 整数 索引 用 作 键 ， 与 索引 关联 的 值 只 是 一 个 指 问 由 线程 malloc 的 某 
个 内 存 区 的 指针 。 


每 个 系统 文 持 有 限 数 量 的 线程 特定 数据 元 素 。POSIX 要 求 这 个 限制 
不 小 于 128 每 个 进程 》， 在 后 面 的 例子 中 我 们 就 采用 128 这 个 限制 。 系 
统 〈 可 能 是 线程 函数 库 ) 为 每 个 进程 维护 一 个 我 们 称 之 为 key 结 构 的 结 
构 数 组 ， 如 图 26-7 所 示 。 



















TAA eR TREE 


图 26-7 ”线程 特定 数据 的 可 能 实现 


Key 结 构 中 的 标志 指示 这 个 数组 元 素 是 否 正在 使 用 ， 所 有 的 标志 初 
始 化 为 “不 在 使 用 ”。 当 一 个 线程 调用 pthread_key_create 创 建 一 个 新 的 
线程 特定 数据 元 素 时 ， 系 统 搜索 其 Key 结 构 数组 找 出 第 一 个 不 在 使 用 的 
元 素 。 该 元 又 的 索引 〈0 一 127) 称 为 键 Chey) ， 返 回 给 调用 线程 的 正 
是 这 个 索引 。 我 们 稍 后 讨论 Key 结构 的 另 一 个 成 员 “ 析 构 函 数 指针 ”。 


除了 进程 范围 的 Key 结构 数组 外 ， 系 统 还 在 进程 内 维护 关于 每 个 线 
程 的 多 条 信息 。 这 些 特定 于 线程 的 信息 我 们 称 之 为 Pthread 结 构 ， 其 音 
分 内 容 是 我 们 称 之 为 pkey 数 组 的 一 个 128 个 元 素 的 指针 数组 。 图 26-8 展 
示 了 这 些 信息 。 











Key [127] 








线程 0 线程 
Pthread{} Pthread{} 
其 他 线程 信息 Wf p FECI Bl 


pkey 1/01 
pkey [1] 


pkeyl01 
pksy [1] 
> 线程 特定 数据 项 


pies 2271 NULL | 





pkey [2-27] 








图 26-8 系统 维护 的 关于 每 个 线程 的 信息 
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pkey 数 组 的 所 有 元 素 都 极 初 始 化 为 空 指针 。 这 些 128 个 指针 是 和 进 
程 内 的 128 个 可 能 的 “ 键 ? 逐 一 关联 的 值 。 


当 我 们 调用 pthread_key_create 创 建 一 个 键 时 ， 系 统 告诉 我 们 这 个 
$e CRIL 。 每 个 线程 可 以 随后 为 该 键 存储 一 个 值 “ 指 针 ) ， 而 这 个 指 
针 通 常 又 是 每 个 线程 通过 调用 malloc 获 得 的 。 线 程 特定 数据 中 易于 混淆 
的 地 方 之 一 是 : 该 指针 是 键 - 值 对 中 的 值 ， 但 是 真正 的 线程 特定 数据 却 
征 该 指针 指 加 的 任何 内 容 。 


我 们 现在 仔细 但 看 一 个 如 何 使 用 线程 特定 数据 的 例子 ， 前 提 是 我 们 
的 readline 函 数 使 用 线程 特定 数据 路 对 于 和 它 的 相继 调用 维护 每 个 线程 各 
nores MEME SRI EUER TQ 
尺码 。 


(1) 一 个 进程 被 启动， 多 个 线程 被 创建 。 


(2) ”其 中 一 个 线程 〈 璧 如 说 线程 0) 是 首 个 调用 readline 函 数 的 线 
程 ， 访 函数 转 而 调用 pthread_key_create。 系 统 在 图 26-7 所 示 Key 结 构 数 
组 中 找到 第 一 个 未 用 的 元 素 ， 并 把 它 的 索引 〈0 一 127) 返回 给 调用 者 。 
我 们 在 本 例子 中 假设 找到 的 索引 是 1。 














FRA VE ES pthread_once ek Zi Rpthread key. create H Zé 9S — 
个 调用 readline 的 线程 所 调用 。 


(3) readline 调 用 pthread_getspecific 获 取 本 线程 的 pkey[1] 值 (图 
26-8 中 作为 键 1 之 值 的 “指针 ”*”) ， 返 回 值 是 一 个 空 指针 。readline 于 是 调 
用 malloc 分 配 内 存 区 ， 用 于 为 本 线程 跨 相 继 的 readline 调 用 保存 特定 于 
线程 的 信息 。readline 按 照 需要 初始 化 该 内 存 区 ， 并 调 
用 pthread_setspecific 把 对 应 所 创建 键 的 线程 特定 数据 指针 
(pkey[1]) 设置 为 指 同 它 刚刚 分 配 的 内 存 区 。 图 26-9 展 示 了 此 时 的 情 
形 ， 其 中 假设 调用 线程 是 线程 0。 


浅 程 0 线程 m 





此 他 线程 信息 Hd A PEG AM. 











pkey ;0] | NULL pkey [0] NULL 
pkey 11] ~ pkey [1] NULL| Jag ers 
A , 线程 特定 
| 数据 项 
pkey [127 NULL pxey [127] NULL) 


线程 分 配 的 内 存 区 域 





实际 数据 





图 26-9 ”把 malloc 到 的 内 存 区 和 线程 特定 数据 指针 相关 联 


我 们 在 该 图 中 指出 ，Pthread 结 构 是 系统 (可 能 是 线程 函数 库 ) UE 
护 的 ， 而 我 们 malloc 的 真正 线程 特定 数据 是 由 我 们 的 函数 (本 例 中 
Wreadline) 维护 的 。pthread_setspecific 所 做 的 只 是 在 Pthread 结 构 
中 把 对 应 指定 键 的 指针 设置 为 指向 分 配 的 内 存 区 。 类 似 
地 ，pthread_getspecific 所 做 的 只 是 返回 对 应 指定 键 的 指针 。 


(4)” 男 一 个 线程 ( 壁 如 说 线程 n) 调用 readline， 当 时 也 许 线 程 0 仍 
然 在 readline 内 执行 。 


readline 调 用 pthread_once 试 图 初始 化 它 的 线程 特定 数据 元 素 所 用 
的 键 ， 不 过 既然 初始 化 函数 已 被 调用 过 ， 它 就 不 再 被 调用 。 








(5) readline 调 用 pthread_getspecific 获 取 本 线程 的 pkey[1] 值 ， 返 
回 值 是 一 个 空 指 针 。 线 程 n 于 是 就 像 线 程 0 那 样 先 调用 malloc， 再 调 
用 pthread_setspecific， 以 初始 化 相应 键 (1) 的 线程 特定 数据 。 图 26- 
10 展 示 了 此 时 的 情形 。 


线程 0 ik Fin 
| 
| 
| 其 他 线程 信息 Hibik P? (CR. 








NULL 
^ 














NULL 











图 26-10 ”线程 n 初 始 化 它 的 线程 特定 数据 后 的 数据 结构 
(6) 线程 n 继 续 在 readline 中 执行 ， 使 用 和 修改 它 目 己 的 线程 特定 数 
i o 





我 们 未 曾 解 决 的 一 个 问题 是 当 一 个 线程 终止 时 会 发 生 什么 ?如 果 该 
线程 调用 过 我 们 的 readline 函 数 ， 那 么 该 函数 已 经 分 配 了 一 个 需要 释放 
挥 的 内 存 区 。 这 正 是 图 26-7 中 的 “ 析 构 函数 指针 ”的 用 武之 地 。 一 个 线程 
调用 pthread_key_create 创 建 某 个 线程 特定 数据 元 素 时 ， 所 指定 的 函数 
参数 之 一 是 指向 某 个 析 构 函数 (destructor) 的 一 个 指针 。 当 一 个 线程 终 
止 时 ， 系 统 将 扫 摘 该 线程 的 pkey 数 组 ， 为 每 个 非 空 的 pkey 指 针 调 用 相应 
的 析 构 函数 。“ 相 应 的 析 构 函数 ” 指 的 是 存放 在 图 26-7 的 key 数 组 中 的 函数 
指针 。 这 是 一 个 线程 终止 时 释放 其 线程 特定 数据 的 手段 。 








处 理 线 程 特定 数据 时 通常 首先 调用 pthread_once 和 
pthread_key_create 两 个 函数 。 


#include <pthread.h> 


int pthread once(pthread once t *onceptr, void (*init)(void)); 


int pthread key create(pthread key t *keyptr, void (*destructor)(void *value)); 





ARI: 若 成 功 则 为 9， 若 出 错 则 为 正 的 EXxx 值 


每 当 一 个 使 用 线程 特定 数据 的 函数 被 调用 时 ，pthread_once 通 常 转 
而 被 该 函数 调用 ， 不 过 pthread_once 使 用 由 onceptr 参 数 指 回 的 变量 中 的 
值 ， 确 保 init 参 数 所 指 的 函数 在 进程 范围 内 只 被 调用 一 次 。 


在 进程 范围 内 对 于 一 个 给 定 键 ，pthread_key_create 只 能 被 调用 一 
次 。 所 创建 的 键 通 过 Keyptr 指 针 参 数 返 回 ， 如 果 destructor 指 针 参 数 不 为 
空 指针 ， 它 所 指 的 函数 将 由 为 该 键 存 放 过 某 个 值 的 每 个 线程 在 终止 时 调 
用 。 


这 两 个 函数 的 典型 用 法 如 下 所 示 不 考虑 出 错 返 回 ) 
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pthread key t rl key; 
pthread once t rl once - PTHREAD ONCE INIT; 


void 
readline destructor(void *ptr) 


free(ptr); 
void 
readline once(void) 
pthread key create(&rl key, readline destructor); 


ssize t 
readline( ... ) 


pthread once(&rl once, readline once); 


if ( (ptr = pthread getspecific(rl key)) == NULL) { 
ptr - Malloc( 
pthread setspecific(rl key, ptr); 
/* initialize memory pointed to by ptr */ 


} 


/* use values pointed to by ptr */ 


每 次 readline 被 调用 时 ， 它 都 调用 pthread_once。pthread_once 使 
用 由 其 onceptr 参 数 指向 的 值 〈 变 量 rl_once 的 内 容 ) 确保 由 其 init 参 数 指 
同 的 函数 只 被 调用 一 次 。 初 始 化 函数 readline_once 创 建 一 个 线程 特定 
数据 键 存放 在 rl_key 中 ，readline 随 后 在 pthread_getspecific 和 
pthread_setspecific 调 用 中 使 用 这 个 键 。 


pthread_getspecific#llpthread_setspecificix Py PRX 分 别 用 于 
获取 和 存放 与 某 个 键 关 联 的 值 。 该 值 就 是 我 们 在 图 26-8 中 称 之 为 “ 指 
针 ” 的 东西 。 该 指针 的 具体 指向 取决 于 应 用 程序 ， 不 过 通常 情况 下 它 指 
同一 个 动态 分 配 的 内 存 区 。 

#include <pthread.h> 

void *pthread_getspecific(pthread_key_t key); 

返回 : 指向 线程 特定 数据 的 指针 (有 可 能 是 一 个 空 指针 ) 
int pthread setspecific(pthread key t key, const void *value); 


返回 : 若 成 功 则 为 9， 若 出 错 则 为 正 的 EXxxx 值 











注意 ，phread_key_create 的 参数 是 一 个 指 同 某 个 键 的 指针 《因为 该 
函数 需要 在 其 中 存放 由 系统 赋予 该 键 的 值 ) ， 而 那 两 个 get 和 set 函 数 的 
参数 则 是 键 本 身 〈 可 能 如 早先 讨论 的 那样 是 一 个 小 整数 索引 ) 。 


例子 : 使 用 线程 特定 数据 的 readline 函 数 


我 们 现在 通过 把 图 3-18 中 readline 函 数 的 优化 版 本 转换 为 无 需 改 变 
调用 顺序 的 线程 安全 版 本 以 给 出 一 个 使 用 线程 特定 数据 的 完整 例子 。 

图 26-11 给 出 该 函数 的 第 一 部 分 : pthreadkey_t 变 
量 、 pthread_once t 变 量 、 readline destructor PK Zu, readline_once 


数 以 及 包含 必须 基于 每 个 线程 维护 的 所 有 信息 的 Rline 结 构 。 
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threads/readline.c 





1 #include "unpthread. ti" 

2 static pthread key t rl key; 

3 Etatic pthread onze t rl once = PTHKE^AD ONCE INIT; 
4 static void 

5 veadline_destructor(vo:d “ptr! 

st 

7 free(ptr): 

0) 


static void 


0 


10 rezdlire once ,void 

Li | 

12 Pthread_key_crcate(&rl_key, rcadline destructor]; 
13 ] 


14 typedef struct | 
is int rl cnt; /* initialize to 0 */ 


16 char *rl zutpzr: /^* initialize to r1 buf */ 
17 char rl tuf(MAXLINE]: 
16 ) Rline; 


threeds (recline 





图 26-11 线程 安全 的 readline 孙 数 的 第 一 部 分 








析 构 函数 
4-8 ”我 们 的 析 构 函数 仅仅 释放 由 相应 线程 早先 分 配 的 内 存 区 
一 次 性 函数 


9-13 ”我 们 的 一 次 性 函数 将 由 pthread_once 调 用 一 次 ， 它 只 是 创建 
由 readline 使 用 的 键 。 


Rline 结 构 


14-18 ”Rline 结 构 含 有 因 在 图 3-18 中 声明 为 static 而 导致 前 述 问题 
的 那 3 个 变量 。 调 用 readline 的 每 个 线程 都 由 readline 动 态 分 配 一 
个 Rline 结 构 ， 然 后 由 析 构 函数 释放 。 


图 26-12 给 出 真正 的 readLine 函 数 和 由 它 调 用 的 my_read 国 数 。 该 图 
是 对 图 3-18 所 做 的 一 个 修改 。 





thirecadviadiiae.vc 
19 static ssize t 
20 ny read(Rline *tsd, in- fd, char *p-r) 


tn Y 


22 if (tsd-»rl cne <- o) { 

es acain: 

a4 if ( (ted-»rl cnt = rsad;Ed, tsd-»rl buf, MAXLINE)! < 0) { 
<5 if (errnc -- BINTR) 

26 goto again; 

27 retum(-1); 

2R ) eise if (tsd-»r1 cnr == 0) 

29 return (0); 

30 ts¢-srl butptr - tsd--rl cuf; 

Ji } 

32 tzd-»rl cnt--; 

33 *str = *ted »rl rcufptre; 

34 returnit); 

35 + 

"6 ssize d 

37 readlineiint =¢, void *vptr, size t maxlen) 

3B ， 

iu size t n, YC; 

40 cnar G., "ptr; 

d= Rl-ne *tsd; 

2 Pthread once(&rl once, readline oncs!; 

43 if ( (tsd = pthread_getspecific(rl_xey)) -- NULL) { 
44 ted = Callee(1, sizeof(Rline));  /^ init tc 3 */ 
45 PtLreaóG serspecifici-1 key, tsd!; 

a6 } 

47 ptr = vptr; 

48 fcr in = 1; r < maxlen; ai) { 

49 if ( (rc = ry_read(tsé, få, &c)! == 1; 

50 *ptr+= = c; 

g- if (c ss '\n') 

32 break, 

53 ) eise if (re = 0) [ 

54 ptr = 0; 

55 returní(n - 1}; /* BOF, n - 1 bytes read */ 
£6 } else 

57 return (-1); /* exror, errno set by -eazí() */ 
58 ) 

59 totr = n; 

fô reluriin; 

éL } 


tireculA vindice © 





图 26-12 REZE readline KIZA ŠB 
my. read iK 2 


19-35 ”本 函数 的 第 一 个 参数 现在 是 指 问 预 先 为 本 线程 分 配 的 Rline 
结构 〈 即 真正 的 线程 特定 数据 ) 的 一 个 指针 。 


分 配 线程 特定 数据 
42 ”我们 首先 调用 pthread_once， 使 得 本 进程 内 第 一 个 调 


用 readline 的 线程 通过 调用 pthread_once 创 建 线程 特定 数据 键 。 
获取 线程 特定 数据 指针 


43-46 ”pthread_getspecific 返 回 指 同 特定 于 本 线程 的 Rline 结 构 的 
指针 。 然 而 如 果 这 次 是 本 线程 首次 调用 readline， 其 返回 值 将 是 一 个 空 
指针 。 在 这 种 情况 下 ， 我 们 分 配 一 个 Rline 结 构 的 空间 ， 并 由 calloc 将 
其 rl_cnt 成 员 初 始 化 为 0。 然 后 我 们 调用 pthread_setspecific 为 本 线程 
存储 这 个 指针 。 下 一 次 本 线程 调用 readline 时 ，pthread_getspecific 将 
返回 这 个 刚 存 储 的 指针 。 
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26.6 ”Web 客户 与 同时 连接 


我 们 现在 回顾 一 下 16.5 节 的 Web 客 户 程序 例子 ， 并 把 它 重 新 编写 成 
用 线程 代 蔡 非 阻 蹇 connect 。 改 用 线程 之 后 ， 我 们 可 以 让 套 接 字 停留 在 
默认 的 阻塞 模式 ， 改 而 为 每 个 连接 创建 一 个 线程 。 每 个 线程 可 以 阻 窒 在 
它 的 connect 调 用 中 ， 因 为 内 核 〈 也 可 能 是 线程 函数 库 ) 会 转 而 运行 另 
外 某 个 就 绪 的 线程 。 


,图 26-13 给 出 本 程序 的 第 一 部 分 ， 包括 全 局 变量 和 main 函 数 的 开 首 
Z 
JJ o 





ng 


b 


Wrends eb)l.c 





1 #ircluse upthread.h'" 

2 #ircluse stnread.h> /* Solaris threads *; 

3 fdetine MAXFILES 20 

4 #define SERV "gy" /* port number cr service rame */ 
5 struct fils 

€ char ^*£ nane, /* filenaue */ 

5 vher af host; /* hustmane or TP address 4/ 

E int f fà; /* descriptor */ 

p SRE t_tlaqe; /* Px below */ 

10  pthrzeai t £ tid; /* thread ID */ 

11 } file (MAXETLES) ; 

12 fdefine F CONNECTING l /* connect () in progress */ 

13 $detinc F READING 2 /* connect (} complete; now reaaing v/ 
14 #define P LONE 4 /* all doce */ 

15 Büeline GET CM "GET ts HTTP/1.0nXMr S r\n" 

16 int recnr, nfiles, nlefrrcconn, nie*rroreas; 


17 void "dc cet read(void v): 
18 void home_paqziconst char +, const char *): 
19 void «rites get omdistzuct Eile *!; 


20 int 

21 main(int arg-, char **argv; 

a2 | 

3 int i, n, maxnconn: 

245 phre) t tid; 

25 s-racc file *fztr; 

26 it (arge < 5) 

27 err_quit{"usage: web «fconns» <IPacdr> «homepage» filel ..."); 
28 maxacann = atoi[argv[1]): 

29 nfiles = min(argc - à, MAXFILES); 
30 for li = V; i < nfiles; i++) { 

31 filelil.E_name = arsvli + 4]; 

2 filefil.€_host = argv[2]; 

33 file[i] f flags = 0; 

34 } 

35 printf ("niiles = $dMn", nfiles); 

36 home page(arzv[2], argvi3l!:; 

3" nlefttrorea3 = nleftteconn = nf:les; 
38 ncooón = 0; 


ihre wel «c 





图 26-13 ”全 局 变量 和 main 函 数 的 开 首 部 分 
全 局 变量 


1~16 ”除了 通常 的 <pthread.h> 头 文件 外 ， 我 们 还 包含 <thread.h> 头 
文件 ， 因 为 除了 使 用 Pthread 线 程 外 ， 我 们 还 需要 使 用 Solaris 线 程 ， 这 一 
点 我 们 稍 后 就 讲解 。 


10 ”我 们 在 file 结 构 中 增加 了 一 个 成 员 f_tid (线程 ID〉。 这 上段 代 
码 其 余部 分 与 图 16-15 类 似 。 在 线程 版 本 中 我 们 不 再 使 用 select， 因 而 


不 需要 任何 描述 符 集 或 变量 maxfd。 
se ”所 调用 的 home_page 函 数 就 是 图 16-16， 没 有 改动 。 
图 26-14 给 出 main 线 程 的 主 处 理 循环 。 


- tirecds^webül.c 


39 waile inlefttoread > 0! [ 

40 while (ncoan < maxncorn &5 nlefttocorn > 0! ( 

11 /* find a iile to read */ 

42 for (2 = 0; i1 < rtiicO; ise) 

43 if (file[i].f zlase == J) 

44 oreak; 

45 i= (i -- niles) 

a6 err quit("nlefttoconn = td but nothing found", nlefcttceonn); 
47 filc[i].t tiago = F CONNECTINC; 

ag bthread craate(&tid, NULL, do get read, éfile[i)); 
39 file[i].t zid - tid; 

£0 neonn++; 

51 nlefttceonn--; 

52 ) 

53 i= ( (ñ = thr join(0, atid, (void **) &fctr)) 1= 0) 

54 errno = n, err sye("thr join error"); 

E5 nccnr.- - ; 

EG nlcfttcro2ad -; 

7 printt (*thread id $å for te done\n", tid, fpzr-»- name]; 
58 } 

£9 exit ið); 

60 | 


türeruds ^nebil i 




















图 26-14 main 函数 的 主 处 理 循环 
若 可 能 则 创建 另 一 个 线程 
40-52 ”如 果 创 建 男 一 个 线程 的 条 件 〈nconn 小 于 maxnconn) 能 够 满 
足 ， 我 们 就 创建 一 个 。 每 个 新 线程 执行 的 函数 是 do_get_read， 传 递 给 
它 的 参数 是 指向 file 结 构 的 指针 。 


694—695 








等 待 任何 一 个 线程 终止 


53-54 ”通过 指定 第 一 个 参数 为 0 调用 Solaris 线 程 匈 数 thr_join， 等 
待 任何 一 个 线程 终止 。 不 幸 的 是 ，Pthreads 没 有 提供 等 待 任 一 线程 终止 
的 手段 ， pthread joinP MCHE RRI o sede dE EE ERE ARE 31] 
将 在 26.9 节 看 到 ，Pthreads 解 决 本 问题 的 办 法 较为 复杂 ， 它 要 求 使 用 条 件 


变量 供 即 将 终止 的 线程 通知 主线 程 自 喘 何 时 终止 。 


我 们 给 出 的 使 用 Solaris 线 程 函数 thr_join 的 办 法 难以 移植 到 所 有 环 
境 下 。 尺 管 如 此 ， 我 们 在 展示 这 个 使 用 线程 的 Web 客 户 程 序 例子 时 ， 并 
不 希望 因为 引入 条 件 变量 和 互 斥 锁 而 搞 复杂 对 它 的 讨论 。 所 和 邓 的 是 我 们 
可 以 在 Solaris 环 境 下 混合 使 用 Pthreads 线 程 和 Solaris 线 程 。 


图 26-15 给 出 的 是 由 每 个 线程 执行 的 do_get_read 图 数 。 该 函数 建立 
TCP 连 接 ， 给 服务 器 发 送 一 个 HTTP ”GET 命 令 ， 并 读 入 来 自 服务 器 的 应 
PRE 


Eo 








threadsweb01.c 
61 void * 
62 do get rsadí/void *vptr! 


e3 


64 int £d, n; 

65 char l-ne[MAXLINR:; 

bE struct file *fptr; 

67 fptr = letruct file t) vptr; 

66 fd = Trp connect (fH ~ >t hast, SERV); 

69 fptr->ť fd - få; 

70 printz(*2o qst read or $c, fd td, thread tdWn", 

71 fp-r-»f name, fà, f;tr-»f tid; 

72 write set cnditptr!; /* writa;) the GET command */ 
73 /* Read se-ver's rez y */ 

74 Fur d se] 

75 it | in = Read(td, line, MAXLINE)} == 2) 

76 break; /* server closed connection */ 
Ti prin-f('read %d bytes from ¢s\n", r, frztr-sf name): 

76 } 

79 p-intf(*'end-of-file on %s\n", fptr-»f name), 

ao Close(fd): 

31 tptr->£ flags = F DONE: /* Cigars F READING */ 

az return(fptr); /* terminate thread */ 

82 ) 


irentsi 
图 26-15 do get readrK Zi 
创建 TCP 套 接 字 并 建立 连接 
68-71 ”调用 tcp_connect 了 水 数 创建 一 个 TCP 套 接 字 并 建立 一 个 连 
接 。 该 套 接 字 是 一 个 通常 的 阻塞 式 套 接 字 ， 因 此 线程 将 阻塞 在 connect 
调用 中 ， 直 到 连接 建立 。 
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向 服务 器 写 出 请 求 

72 调用 write_get_cmd 构 造 HITP ”6ET 命 令 并 把 它 发 送 到 服务 器 。 
我 们 不 再 给 出 该 函数 的 代码 ， 它 和 图 16-18 的 唯一 区 别 是 线程 版 本 不 调 
用 Fp_sET， 也 不 使 用 maxfd。 
读 入 服务 器 的 应 答 


7:-82 写 出 请 求 后 随即 读 入 服务 器 的 应 答 。 连 接 被 服务 器 关闭 时 
设置 F_poNE 标 志 并 返回 ， 从 而 终止 本 线程 。 


i 我 们 同样 没有 给 出 home_page 函 数 ， 因 为 它 和 图 16-16 给 出 的 版 本 一 





我 们 将 再 次 回 到 本 例子 ， 把 Solaris 的 thr_join 函 数 替 换 成 移植 性 更 
好 的 Pthreads 方 法 ， 不 过 在 此 之 前 我 们 必须 首先 讨论 互 斥 锁 和 条 件 变 


里 o 


26.7 HJ 


注意 图 26-14 中 ， 当 某 个 线程 终止 时 ， 主 循环 将 递减 nconn 和 
nlefttoread。 我 们 本 来 可 以 把 这 两 个 递减 操作 放 在 do_get_read 函 数 
中 ， 让 每 个 线程 在 即将 终止 之 前 递减 这 两 个 计数 器 。 然 而 这 么 做 却 是 一 
个 微妙 而 重大 的 并 发 编程 错误 。 


把 计数 需 递 减 代 码 放 在 每 个 线程 均 执行 的 函数 中 的 问题 在 于 那 两 个 
变量 是 全 局 的 ， 而 不 是 特定 于 线程 的 。 如 果 一 个 线程 在 递减 某 个 变量 的 
中 途 被 挂 起 ， 而 为 一 个 线程 执行 并 递减 同一 个 变量 ， 那 就 可 能 导致 错 
误 。 举 例 来 说 ， 假 设 C 编 译 占 将 递减 运算 符 转换 成 3 条 机 强 指 令 ; 从 内 存 
E 递减 寄存 器 、 从 寄存 器 存储 到 内 存 。 考 虑 如 下 可 能 的 情 











(1) 线程 A 运行 ， 把 nconn 的 值 (3) 装载 到 一 个 寄存 器 。 


(2) 系统 把 运行 线程 从 A 切换 到 B。A 的 寄存 器 被 保存 ，B 的 寄存 器 则 


(3) ”线程 B 执 行 与 C 表 达 式 nconn-- 相 对 应 的 3 条 指令 ， 把 新 值 2 存储 


到 nconn。 


(4) 一 段 时 间 之 后 ， 系 统 把 运行 线程 从 B 切 换 回 A。A 的 寄存 器 被 恢 
复 ，A 从 原来 离开 的 地 方 ( 即 3 指令 序列 中 的 第 二 条 指令 ) 继续 执行 ， 
把 那个 寄存 器 的 值 从 3 递减 为 2， 再 把 值 2 存储 到 nconn。 


最 终 的 结果 是 nconn 本 该 为 1 实际 却 为 2。 这 和 是 错误 的 运行 结果 。 
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这 些 类 型 的 并 发 编程 错误 很 难 被 发 现 ， 其 原因 有 多 个 。 首 先 ， 这 些 
编程 错误 导致 的 运行 差错 很 少 发 生 。 然 而 无 论 如 何 它们 毕竟 是 错误 ， 总 
SF BUS IT AG (Murphy's Law， 熏 菲 定 律 ) 。 其 次 ， 这 些 编程 错误 导 
致 的 运行 差错 难以 再 现 ， 因 为 运行 差错 取 雇 于 许多 事件 的 非 确 定 定 时 天 
系 。 最 后 ， 某 些 系 统 上 递减 运算 符 的 便 件 指令 可 能 是 原子 的 ， 也 就 是 说 
这 些 系统 中 存在 可 递减 内 存 中 某 个 整数 的 单条 硬件 指令 〈 顶 蔡 我 们 以 前 











假设 的 3 指令 序列 ) ， 而 且 在 这 条 指令 的 执行 期 内 硬件 不 能 被 中 断 。 当 
然 我 们 不 可 能 保证 所 有 系统 都 是 如 此 ， 因 此 上 述 代 码 会 发 生 在 一 个 系统 
上 起 作用 在 另 一 个 系统 上 却 不 起 作用 的 现象 。 


我 们 称 线程 编程 为 并 发 编程 (concurrent programming) 或 并 行 编程 
(parallel programming) ， 因 为 多 个 线程 可 以 并 发 地 (或 并 行 地 〉 运行 
且 访 问 相 同 的 变量 。 虽 然 我 们 刚 讨 论 的 错误 情形 以 单 CPU 系 统 为 前 提 ， 
但 是 如 果 线 程 A 和 B 同 时 运行 在 某 个 多 处 理 器 系统 的 不 同 CPU 上 ， 洪 在 
的 运行 差错 仍然 可 能 发 生 。 对 于 通 利 的 Unix 编 程 ， 我 们 不 会 磁 到 这 些 并 
发 编程 问题 ， 因 为 调用 fork 之 后 ， 父 子 进 程 之 间 除 了 摘 述 符 外 不 共享 任 











何 东西 。 然 而 当 我 们 讨论 在 进程 之 间 的 共 盏 内 存 区 时 ， 仍 然 会 碰 到 同类 
问题 。 


我 们 可 以 使 用 线程 轻易 展现 这 个 问题 。 图 26-17 是 一 个 简单 的 程 
序 ， 它 创建 两 个 线程 ， 然 后 让 每 个 线程 递增 同一 个 全 局 变量 5000 次 。 


为 了 强化 运行 时 刻 的 出 错 可 能 性 ， 我 们 先 取 得 counter 的 当前 值 ， 
再 显示 它 的 新 值 ， 然 后 存储 这 个 新 值 。 运 行 这 个 程序 ， 我 们 得 到 如 图 
26-16 所 示 的 输出 。 





1 
4 
1 
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图 26-16 ”图 26-17 中 程序 的 输出 
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1 #include “unpthread.h" 
2 #defZine NLOOF 5020 


threads/example0i.c 


3 int counter; /* incrementes by threads */ 
4 void *doicivoid *!; 

5 int 

6 main(int argc, char **argv! 

i pthread t cida, cida; 

9 Pthread -reate(&tcidA, NULL, &doit, NULL!; 

10 Pthread create(&tidB, NULL, &dGoit, NULL!; 

11 /* wait for both threads to terminate å; 

12 Pthread_join(tidA, NULL); 

1: Pthrzsad join(tidD, NULL); 

14 @xit (0); 

15 } 

16 void * 

17 doit(voià *vptr) 

ig 

19 int i, val; 

20 /* 

?1 s Bach thread fetches, prints, amb increments the counter NLOOP [ores 
22 * The value of the counter should increase wouotoenically. 
23 “j 

24 for (i = 0; i < NLOOP; i++) | 

25 val - counter; 

2€ crincf ("gd: td\n", thread self(), val + ll; 

27 comter ~ val + 1; 

28 } 

29 return (NULLI ; 

36 ] 

















图 26-17 ”两 个 线程 不 正确 地 递增 一 个 全 局 变量 


请 注意 系统 首次 从 线程 4 切换 到 线程 5 时 发 生 的 错误 ， 
的 值 都 是 518。 这 种 错误 在 10000 行 输出 中 发 生 了 许多 次 。 





Whreads/exampleDi.c 


每 个 线程 存储 





如 果 我 们 运行 该 程序 若干 次 ， 这 种 类 型 问题 的 非 确 定 本 性 就 同样 得 
以 显现 ， 每 次 运行 的 最 终结 果 都 不 同 于 前 一 次 运行 。 如 果 我 们 把 程序 的 
输出 重 定 问 到 磁盘 文件 ， 有 时 候 就 不 发 生 运行 差错 ， 因 为 这 么 一 来 程序 
运行 得 更 快 ， 所 提供 的 线程 则 切换 机 会 也 更 少 。 我 们 试验 过 的 运行 差错 
出 现 得 最 多 的 情形 是 : 交互 地 运行 该 程序 ， 把 程序 的 输入 写 到 ( 慢 速 ) 
终端 上 ， 同 时 使 用 Unix 的 script 程 序 〈( 在 APUE 第 19 章 中 详细 讨论 ) 把 











整个 交互 过 程 的 输出 保存 到 一 个 文件 中 。 
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我 们 刚才 讨论 的 多 个 线程 更 改 一 个 共享 变量 的 问题 是 


最 简单 的 问 


题 。 其 解决 办 法 是 使 用 一 个 互 斥 锁 (mutex, fVXémutual exclusion) 保 
护 这 个 共享 变量 ; 访问 该 变量 的 前 提 条 件 是 持 有 该 互 斥 锁 。 按 照 
Pthread， 互 斥 锁 是 类 型 为 pthread_mutex_t 的 变量 。 我 们 使 用 以 下 两 个 
函数 为 一 个 互 斥 锁 上 锁 和 解锁 。 


#include <pthread.h> 








int pthread_mutex_lock(pthread_mutex_t *mptr); 
int pthread_mutex_unlock(pthread_mutex_t *mptr); 


HBE: 若 成 功 则 为 90， 若 出 错 则 为 正 的 EXxx 值 




















如 果 试 图 上 锁 已 被 妃 外 茶 个 线程 锁 住 的 一 个 互 斥 锁 ， 本 线程 将 被 阻 
3E, BENZ A SABRI A IE. 


如 果 某 个 互 斥 锁 变 量 是 静态 分 配 的 ， 我 们 就 必须 把 它 初 始 化 为 常 
值 PTHREAD_MUTEX_INITIALIZER。 我 们 将 在 30.8 节 看 到 ， 如 果 我 们 在 共享 
内 存 区 中 分 配 一 个 互 斥 锁 ， 那么 必须 通过 调用 pthread_mutex_init 函 数 
在 运行 时 把 它 初 始 化 。 


有 些 系统 〈 例 如 Solaris) 把 PTHREAD_MUTEX_INITIALIZER 定 义 为 0， 
因而 忽略 这 个 初始 化 步骤 可 以 接受 ， 因 为 静态 分 配 的 变量 被 自动 初始 化 
为 0。 但 是 这 么 做 并 不 能 你 证 可 以 被 普遍 接受 ， 因 为 其 他 系统 (例如 
Digital Unix) 把 初始 化 音 值 定义 为 非 0。 


图 26-18 是 图 26-17 的 改正 版 本 ， 它 使 用 单个 互 斥 锁 保 护 由 两 个 线程 
共同 访问 的 计数 器 。 


threads/excmpietl2.c 





1 #include "urpthread.t' 

2 #define NLOOP 5C09 

a inr counrer; /* incremented by threads */ 

4 ptunrsad mutex t counter mutex = PIHREAD MUTEX IMI'TLALIZER; 

£ void *doit (void *!; 

6 int 

9 main(int arge, char **azxyyv) 

a{ 

S pthread_t ticA, tidB; 

10 Pthread create (&@tidA, NULL, &coit, NULLI ; 

1i P-hread create(&LcidB, NULL. í3oit, NULL!; 

12 /* wait for both threads zo terminste */ 

13 Pzhread join(tíd^, NULL); 

14 Pthread_join(tid2, NULL); 

15 exzt!2)': 

16 

17 void * 

16 doizivoid *vptr] 

19 | 

20 int i, val; 

d /" 

22 * Each thread fetches, prints, and increments the counter NLCOP times. 
* The value of the counter show d increase monotonically. 

24 让 六 

i5 fcr (i = 0; i < NLOOP; ist) 

26 Pthread_mrex_lock (&cournter_muatex! ; 

27 val = Counter; 

ag printf(*td: td\n", pthread self(), val + 2}; 

z9 counter = val + 1; 

30 Ptkread mutex_unlock (Scounter_mutex! ; 

31 ] 

32 return (NULL) ; 

33 


threads/exampleüz.c 





图 26-18 ”使 用 互 斥 锁 保护 共享 变量 的 图 26-17 的 改正 版 本 
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我 们 声明 一 个 名 为 counter_mutex 的 互 斥 锁 ， 线 程 在 操纵 counter 变 
量 之 前 必须 锁 住 该 互 斥 锁 。 无 论 何 时 运行 这 个 程序 ， 其 输出 总 是 正确 
的 : 计数 器 值 被 单调 地 递增 ， 所 显示 的 最 终 值 总 是 10000。 


使 用 互 斥 锁 上 锁 的 开销 有 多 大 呢 ? 把 网 26-17 和 图 26-18 中 的 程序 改 
为 循环 50000 次 ， 并 在 把 输出 定 同 到 /dev/nul11 的 前 提 下 测量 时 间 。 没 有 
互 斥 的 不 正确 版 本 和 使 用 互 斥 锁 的 正确 版 本 之 间 的 CPU 时 间 差 别 是 
10%。 这 个 结果 告诉 我 们 互 斥 锁 上 锁 并 没有 太 大 开销 。 

















26.8 ”条件 变量 


互 斥 锁 适 合 于 防止 同时 访问 某 个 共享 变量 ， 但 是 我 们 需要 另外 某 种 
在 等 待 某 个 条 件 发 生 期 间 能 让 我 们 进入 睡眠 的 东西 。 让 我 们 凭借 一 个 例 
子 说 明 这 一 点 。 我 们 回 到 26.6 节 的 Web 客 户 程序 ， 把 Solaris 的 thr_join 
蔡 换 成 pthread_join。 然 而 在 知道 某 个 线程 已 经 终止 之 前 ， 我 们 无 法 调 
用 这 个 Pthread 函 数 。 我 们 首先 声明 一 个 计量 已 终止 线程 数 的 全 局 变量 ， 
并 使 用 一 个 互 斥 锁 保 护 它 。 


int ndone; /* number of terminated threads */ 
pthread mutex tndone mutex - PTHREAD MUTEX INITIALIZER; 








我 们 接着 要 求 每 个 线程 在 即将 终止 之 前 谨慎 使 用 所 关联 的 互 斥 锁 递 
PEI YER e 
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void * 
do get read(void *vptr) 


Pthread mutex lock(&ndone mutex); 
ndone++; 
Pthread_mutex_unlock(&ndone_mutex) ; 


return(fptr); /* terminate thread */ 


问题 是 怎样 编写 主 循环 。 主 循环 需要 一 次 又 一 次 地 锁 住 这 个 互 斥 锁 
以 便 检查 是 否 有 任何 线程 终止 了 。 
while (nlefttoread > 0) { 


while (nconn < maxnconn && nlefttoconn > 0) ( 
/* find a file to read */ 








} 


/* See if one of the threads is done */ 
Pthread mutex lock(&ndone mutex); 
if (ndone > 0) ( 
for (i = 0; i < nfiles; i++) ( 
if (file[i].f_flags & F_DONE) { 
Pthread join(file[i].f tid, (void **) &fptr); 


/* update file[i] for terminated thread */ 


} 
} 


Pthread mutex unlock(&ndone mutex); 


} 


如 此 编写 主 循环 尽管 正确 ， 却 意味 着 主人 循环 永远 不 进入 睡 卢 ， 它 束 
是 不 断 地 循环 ， 每 次 循环 回来 检查 一 下 ndone。 这 种 方法 称 为 轮 询 
(polling) , #447 3¢CPURY IA]. 


我 们 需要 一 个 让 主 循环 进入 睡眠 ， 直 到 某 个 线程 通知 它 有 事 可 做 才 
醒 来 的 方法 。 条 件 变量 (condition variable) 结合 互 斥 锁 能 够 提供 这 个 
功能 。 互 斥 锁 提 供 互 斥 机 制 ， 条 件 变 量 提供 信和 号 机 制 。 


按照 Pthread， 条 件 变量 是 类 型 为 pthread_cond_t 的 变量 。 以 下 两 个 
函数 使 用 条 件 变量 。 


#include <pthread.h> 





int pthread cond wait(pthread cond t *cptr, pthread mutex t *mptr); 
int pthread cond signal(pthread cond t *cptr); 


均 返 回 : 若 成 功 则 为 9， 若 出 错 则 为 正 的 EXxx 值 
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第 二 个 函数 的 名 字 中 “signal" 一 词 并 不 指称 Unix 的 SIGxxx 信 和 号。 


解释 这 些 图 数 最 容易 的 方法 是 举例 说 明 。 回 到 我 们 的 Web 客 户 程序 
例子 ， 现 在 我 们 给 计数 器 ndone 同 时 关联 一 个 条 件 变量 和 一 个 互 斥 锁 。 








Int ndone 
pthread mutex t ndone mutex - PTHREAD MUTEX INITIALIZER; 
pthread cond t ndone cond - PTHREAD COND INITIALIZER; 





通过 在 持 有 该 互 斥 锁 期 间 递增 该 计数 器 并 发 送信 号 到 该 条 件 变量 ， 
一 个 线程 通知 主人 循环 目 身 即将 终止 。 
Pthread mutex lock(&ndone mutex); 


ndone++; 
Pthread cond signal(&ndone cond); 


Pthread mutex unlock(&ndone mutex); 


主 循环 阻塞 在 pthread_cond_wait 调 用 中 ， 等 待 某 个 即将 终止 的 线程 
发 送信 号 到 与 ndone 关 联 的 条 件 变量 。 
while (nlefttoread > 0) { 


while (nconn < maxnconn && nlefttoconn > 0) { 
/* find a file to read */ 


} 


/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone -- 0) 

Pthread cond wait(&ndone cond, &ndone mutex); 


for (i = 0; i < nfiles; i++) ( 
if (file[i].f_flags & F_DONE) { 
Pthread join(file[i].f tid, (void **) &fptr); 
/* update file[i] for terminated thread */ 


} 


Pthread_mutex_unlock(&ndone_mutex) ; 


注意 ， 主 循环 仍然 只 是 在 持 有 互 斥 锁 期 间 检 查 ndone 变 量 。 然 后 ， 
WR A3J RS 383LU]H]pthread cond wait. 12 KZE UR HZ EET 
入 睡眠 并 释放 调用 线程 持 有 的 互 斥 锁 。 此 外 ， 当 调用 线程 后 来 从 
pthread_cond_wait 返 回 时 〈 其 他 某 个 线程 发 送信 号 到 与 ndone 关 联 的 条 
件 变量 之 后 ) ， 访 线程 再 次 持 有 该 互 斥 锁 。 

为 什么 每 个 条 件 变量 都 要 关联 一 个 互 斥 锁 呢 ? 因为 “条件 ”通常 是 线 
程 之 间 共 享 的 某 个 变量 的 值 。 人 允许 不 同 线程 设置 和 测试 该 变量 要 求 有 一 
个 与 该 变量 关联 的 互 斥 锁 。 举 例 来 说 ， 要 是 刚才 给 出 的 例子 代码 中 我 们 
没 用 互 斥 锁 ， 那 么 主 循环 将 如 下 测试 变量 ndone。 
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/* Wait for one of the threads to terminate */ 
while (ndone -- 0) 
Pthread cond wait(&ndone cond, &ndone mutex); 





这 里 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主 循环 测试 


ndone==0 之 后 但 在 调用 pthread_cond_wait 之 前 递增 ndone。 如 果 发 生 这 
样 的 情形 ， 最 后 那个 “信号 ?就 丢失 了 ， 造 成 主 循环 永远 阻 束 
在 pthread_cond_wait 调 用 中 ， 等 竺 永远 不 再 发 生 的 某 事 再 次 出 现 。 


同样 的 理由 要 求 pthread_cond_wait 被 调用 时 其 所 关联 的 互 斥 锁 必 须 
是 上 锁 的 ， 该 函数 作为 单个 原子 操作 解锁 该 互 斥 锁 并 把 调用 线程 投入 睡 
眼 也 是 出 于 这 个 理由 。 要 是 该 函数 不 先 解锁 该 互 斥 锁 ， 到 返回 时 再 给 它 
上 锁 ， 调 用 线程 就 不 得 不 事先 解锁 事后 上 锁 该 互 斥 锁 ， 测 试 变量 ndone 
的 代码 将 变 为 : 


/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone -- 0) ( 
Pthread mutex unlock(&ndone mutex); 
Pthread cond wait(&ndone cond, &ndone mutex); 
Pthread mutex lock(&ndone mutext); 


d 








然而 这 里 再 次 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主线 程 调 
用 pthread_mutex_unlock 和 pthread_cond_wait 之 间 终 止 并 递增 ndone 的 


值 。 





pthread_cond_signal 通 党 唤醒 等 在 相应 条 件 变 量 上 的 单个 线程 。 有 
时 候 一 个 线程 知道 自己 应 该 唤醒 多 个 线程 ， 这 种 情况 下 它 可 以 调 
用 pthread_cond_broadcast 唤 醒 等 在 相应 条 件 变量 上 的 所 有 线程 。 


#include <pthread.h> 





int pthread cond broadcast(pthread cond t *cptr); 


int pthread cond timedwait(pthread cond t *cptr, pthread mutex t *mptr, 
const struct timespec *abstime); 
均 返 回 : 若 成 功 则 为 9， 若 出 错 则 为 正 的 EXxX 值 




















pthread_cond_timedwait 人 允许 线程 设置 一 个 阻塞 时 间 的 限 
制 。abstime 是 一 个 timespec 结 构 〈 我 们 已 在 6.9 节 随 pselect 函 数 定义 过 
该 结构 ) ， 指 定 该 函数 必须 返回 时 刻 的 系统 时 间 ， 即 使 到 时 候 相 应 条 件 
变量 尚未 收 到 信和 号。 如 果 发 生 这 样 的 超时 ， 那 就 返回 ETIME 错 误 。 


这 个 时 间 值 是 一 个 绝对 时 间 Cabsolute time) ， 而 不 是 一 个 时 间 增 
t (time delta) 。 也 就 是 说 abstime 参 数 是 函数 应 该 返回 时 刻 的 系统 时 间 
— 从 UTC 时 间 以 来 的 秒 数 和 纳 秒 数 。 这 一 点 不 同 于 select 和 





pselect， 它 们 指定 的 是 从 调用 时 刻 开 始 到 函数 应 该 返回 时 刻 的 秒 数 和 
微 秒 数 〈 对 于 pselect 为 纳 秒 数 ) 。 通 常 采 用 的 过 程 是 : VA 

用 gettimeofday 获 取 当 前 时 间 (作为 一 个 timeval 结 构 )， 把 它 复 制 到 一 
个 timespec 结 构 中 ， 再 加 上 期 望 的 时 间 限 制 。 例 如 : 
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struct timeval tv; 
struct timespec ts; 
if (gettimeofday(&tv, NULL) < 0) 
err sys("gettimeofday error"); 
ts.tv sec = tv.tv sec + 5; /* 5 seconds in future */ 
ts.tv nsec = tv.tv usec * 1000; /* microsec to nanosec */ 


pthread cond timedwait( ... , &ts); 


使 用 绝对 时 间 取 代 增 量 时 间 的 优点 是 ， 如 果 该 函数 过 早 返 回 〈 可 能 
是 因为 捕获 了 某 个 信号 ) ， 那 么 不 必 改 动 timespec 结 构 参 数 的 内 容 就 可 
以 再 次 调用 该 函数 ， 缺 点 是 首次 调用 该 轴 数 之 前 不 得 不 调 
用 gettimeofday。 


POSIX 规 范 定义 了 一 个 名 为 clock_gettime 的 函数 ， 它 把 当前 时 间 返 
回 为 一 个 timespec 结 构 。 


26.9 ”Web 客户 与 同时 连接 CHE) 


我 们 现在 重新 编写 26.6 节 的 Web 客 户 程序 ， 把 其 中 对 于 Solaris 
之 thr_join 函 数 的 调用 蔡 换 成 调用 pthread_join。 正 如 那 节 所 述 ， 这 人 么 
一 来 我 们 必须 明确 指定 等 待 哪 一 个 线程 。 为 了 做 到 这 一 点 ， 我 们 就 像 
26.8 节 讲解 的 那样 使 用 条 件 变 量 。 


全 局 变量 (图 26-13) 的 唯一 变动 是 增加 一 个 新 标志 和 一 个 条 件 变 


JE 

Æ o 
#define F_JOINED 8 /* main has pthread_join'ed */ 
int ndone; /* number of terminated threads */ 
pthread_mutex_t ndone_mutex = PTHREAD_MUTEX_INITIALIZER; 
pthread_cond_t ndone_cond = PTHREAD_COND_INITIALIZER; 


do get readiKZ& (26-15) 的 唯一 变动 是 在 本 线程 终止 之 前 递增 
ndone 并 通知 主 循环 。 


printf("end-of-file on %s\n", fptr->f_name); 





Close(fd); 

Pthread mutex lock(&ndone mutex); 

fptr-»-f flags = F DONE; /* clears F READING */ 
ndone++; 


Pthread cond signal(&ndone cond); 
Pthread mutex unlock(&ndone mutex); 


return(fptr); /* terminate thread */ 


大 多 数 变 动 发 生 在 主 循环 中 (图 26-14) ， 图 26-19 给 出 主 循环 的 新 


o 
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"reads /webü3.c 


43 while (nlefttoread > 0! [ 

a4 whila (nconn < maxnconn &« niefttocom > o) ( 

15 /* tind a tile to read */ 

a6 for (i - 0 ; i « afiles; i++} 

41 if /filefii.? flags == n) 

at break; 

49 if ii == niiles) 

56 err quit('nlefttoconn = $d but nothing found", rlefttcconn): 


51 t-le(i].z zlage = F CUNNECTING; 
Sz Pthread_create [Stid, NULL, &do_get_read, &tfileli `); 
53 f-le(il.? tid = tid; 


54 TOON +; 

55 n.eflztoconn- -; 

5€ ) 

37 /* Wait for thread to terminate */ 

SE Fthreag mutex lock |Sndone mutex) ; 

59 while (ndone == 0) 

60 Ethreed con wait (ndene coml, ndonse mize): 

51 for (i = 0; i < nfilec; iti! { 

62 if ‘€ilefil.f flags & F DONE) { 

63 Prhread join(f-le[:].£ cid, (void **) &fptr): 
54 if {afile[i] != fstr) 

65 err quit("fils[i] !» Iptr"}; 

56 fp-r->f_-lags ~ F JOINED;  /* clears F LONE */ 
b7 ndcne- -; 

56 necnn--; 

69 mefttoresd--; 

70 orincf ("thread d for *s done\n*", fptr--7 cid, fpcr-»f name!; 
71 ) 

72 } 

73 Fthread mutex unlock (Andone_nmtex) ; 

74 ) 

75 exit (0) 

76 ) 


fir /nebü3.c 

















图 26-19 main 函数 的 主 处 理 循环 
各 可 能 则 创建 另 一 个 线程 
44-56 ”这 段 代码 没有 变动 。 
等 待 任何 一 个 线程 终止 


57-60 为 了 等 待 某 个 线程 终止 ， 我 们 等 D 正如 26.8 
TBI. 3 这 不 测试 必须 在 锁 住所 关联 互 斥 锁 期 间 进行 。 睡 虐 
由 pthread_cond_wait 执 行 。 


处 理 终止 的 线程 





61-73 ” 当 发 现 某 个 线程 终止 时 ， 我 们 遍历 所 有 file 结 构 找 出 这 个 
线程 ， 再 调用 pthread_join， 然 后 设置 新 的 F_JOINED 标 志 。 
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我 们 已 在 图 16-20 中 与 使 用 非 阻 塞 connect 的 Web 客 户 程序 版 本 一 道 
给 出 了 本 版 本 的 时 间 性 能 。 


26.10 “人 小结 


创建 一 个 新 线程 通常 比 使 用 fork 派 生 一 个 新 进程 快 得 多 。 仪 仪 这 一 
反驳 能 够 体现 线程 在 繁重 使 用 的 网 络 服务 右上 的 优势 。 然 而 线程 编程 是 
一 个 新 的 编程 范式 ， 需 要 有 所 训练 。 


同一 进程 内 的 所 有 线程 共 吝 全 局 变量 和 描述 符 ， 从 而 允许 不 同 线程 
之 间 共 有 圣 这 些 信 息 。 然 而 这 种 共 译 却 引 入 了 同步 问题 ， 我 们 必须 使 用 的 
Pthread 同 步 原 语 是 互 斥 锁 和 条 件 变 量 。 共 享 数据 的 同步 几乎 是 每 个 线程 
化 应 用 程序 必 不 可 少 的 部 分 。 


编写 能 够 被 线程 化 应 用 程序 调用 的 函数 时 ， 这 些 函 数 必须 做 到 线程 
安全 。 有 助 于 做 到 这 一 点 的 一 个 技巧 是 线程 特定 数据 ， 我 们 通过 改 与 
readline 函 数 展示 了 这 样 的 一 个 例子 。 


我 们 将 在 第 30 章 中 重新 回 到 线程 模型 ， 讨 论 另 外 一 个 服务 器 程序 设 
WE: 服务 器 在 局 动 时 创建 一 个 线程 池 ， 下 一 个 客户 请 求 就 由 该 池 中 
某 个 闲置 的 线程 来 处 理 。 


























习题 

26.1 假设 同时 服务 100 个 客户 ， 比 较 使 用 fork 的 一 个 服务 器 和 使 用 
线程 的 一 个 服务 器 所 用 的 描述 符 量 。 

26.2 ”图 26-3 中 如 果 线 程 在 str_echo 返 回 之 后 不 关闭 各 自 的 已 连接 
£&BCr. REARACETA? 


26.3 在 图 5-5 和 图 6-13 中 ， 当 期 符 服 务 器 回 射 某 个 文本 行 而 收 到 的 
却 是 EOF 时 ， 客 户 就 显示 “server terminated prematurely( 服 务 器 过 早 终 
止 ，”( 回 顾 5.12 节 〉 。 把 图 26-2 改 为 也 在 合适 的 时 候 显示 这 条 消息 。 


26.4 把 图 26-11 和 图 26-12 改 为 能 够 在 不 文 持 线程 的 系统 上 编译 通 








2655 ”为 了 观察 图 3-18 的 readline 函 数 版 本 用 于 图 26-3 的 线程 化 程 
序 时 表现 出 来 的 错误 ， 构 造 这 个 TCP 回 射 服务 器 程序 并 启动 运行 。 然 后 
构造 能 够 以 批量 方式 正确 工作 的 来 目 图 6-13 的 TCP 回 射 客户 程序 。 在 目 
己 的 系统 上 找到 一 个 元 长 的 文本 文件 ， 在 批量 方式 下 启动 运行 客户 3 
次 ， 让 它们 从 这 个 文本 文件 中 读 且 把 输出 写 到 各 自 的 临时 文件 中 。 要 是 
可 能 ， 在 不 同 于 服务 器 所 在 主机 的 另 一 个 主机 上 运行 这 些 客 户 。 如 果 这 
些 客户 正确 地 终止 (它们 往往 挂 起 ) ， 那 就 查看 它们 的 临时 输出 文件 ， 
并 和 输入 文件 进行 比较 。 


现在 构造 一 个 使 用 来 自 26.5 节 的 readline 函 数 线程 安全 版 本 的 TCP 
回 射 服务 器 程序 。 重 新 以 3 个 客户 运行 上 述 测 试 : REEMA L 
lE. TRXSINH A) Fl TEreadline destructorPA ZU fllreadline oncerK 27 
以 及 readline 中 的 malloc 调 用 处 放置 一 个 printf。 由 它们 的 输出 可 以 
证 实 键 只 被 某 个 线程 一 次 性 地 创建 ， 但 是 每 个 线程 都 各 自分 配 了 内 存 空 
间 并 调用 了 析 构 函数 。 








707 








山本 段 文字 第 3 版 和 第 2 版 出 入 较 大 。 第 2 版 中 Stevens 先 生 详 细 介 绍 了 最 
终 发 现 图 3-18 (在 第 2 版 中 为 图 3-17， 另 外 图 3-17 在 第 2 版 中 为 图 3-16) 


HE readline K Biche AS FF 4E DA] i FH f AS e E | GR D XS i VEU REI 
过 程 ， 确 实 略 显 见 长 ， 不 过 第 3 版 的 新 作者 们 未 能 较 好 地 概括 Stevens 先 
生 的 这 段 话 ， 读 者 看 到 稍 后 突然 冒 出 readline 和 图 3-18 会 英名 其 妙 ， 译 
者 因此 根据 自己 的 理解 概括 了 这 上 段 话 。 注 意 ， 第 2 版 图 3-17 中 的 3 个 静态 
变量 是 my_read 函 数 的 局 部 变量 ， 第 3 版 中 图 3-18 因 引入 一 个 从 未 用 到 过 
的 readlinebuf 函 数 而 把 这 3 个 静态 变量 改 成 了 全 局 变量 ， 如 此 改动 并 不 
影响 这 里 的 讨论 ， 只 是 直接 使 用 静态 变量 的 函数 由 1 个 变 成 了 2 个 (有 一 
个 从 未 被 调用 过 ) 。 一 一 译 者 注 


QEZ (Stevens) 曾 在 Usenet 上 抱怨 pthread_join 不 能 等 待 任 一 线程 终 
止 ， 一 些 参与 过 Pthread 标 准 工作 的 人 员 为 这 个 设计 决策 辩解 说 ， 
pthread join 不 可 能 每 个 人 想 怎 么 样 承 怎么 样 。 他 们 还 辩解 说 ， 在 进程 模 
型 中 存在 父子 关系 ， 因 此 wait 或 waitpid 具 备 等 待 任 一 子 进程 的 能 力 是 有 
意义 的 。 然 而 在 线程 环境 中 却 不 存在 类 似 父 与 子 的 层次 关系 ， 因 而 等 待 
任 一 线程 终止 并 没有 意义 。 其 状态 由 某 个 等 待 任 一 线程 终止 之 类 函数 返 
回 的 线程 不 一 定 是 由 调用 线程 创建 的 。 他 们 补充 说 ， 如 果 有 人 真 地 需要 
等 待 任 一 线程 ， 那 也 可 以 使 用 条 件 变量 实现 之 〈 并 不 简单 ) ， 就 如 我 们 
稍 后 给 出 的 那样 。 无 论 他 们 如 何 和 争辩 ， 作 者 依然 认为 pthread_join 的 设计 
FERE. 


@) 第 3 版 新 作者 在 图 26-12 中 改 用 calloc 调 用 ， 只 是 为 了 用 上 calloc 可 能 
影响 效率 的 初始 化 特性 。 一 一 译 者 注 




















第 27 童 ”IP 选项 


27.1 概述 


IPv4 允 许 在 20 字 市 首部 固定 部 分 之 后 跟 以 最 多 共 40 个 字 节 的 选项 。 
尽管 已 经 定义 的 IPv4 选 项 共有 10 种 ， 最 党 用 的 却 是 源 路 径 选 项 。 这 些 选 
项 的 访问 途径 是 存 取 IP_oPTIONS 套 接 字 选项 ， 我 们 将 以 一 个 使 用 源 路 由 
的 例子 展示 这 个 访问 方式 。 


IPv6 人 允许 在 固定 长 度 的 40 字 节 IPv6 首 部 和 传输 层 首 部 《例如 
ICMPv6、TCP 或 UDP) 之 间 出 现 扩展 首部 Cextension header) . H Ae 
义 了 6 种 不 同 的 扩展 首部 。 不 同 于 IPv4 的 是 ，IPv6 扩 展 首 部 的 访问 途径 
s 数 接口 ， 而 不 是 强求 用 户 理解 这 些 首部 如 何 呈 现在 IPv6 分 组 中 的 真 
实 细节 。 




















272 ”TIPv4 选 项 


我 们 在 图 A-1 中 展示 出 IPv4 的 选项 〈options) 字段 跟 在 20 字 节 IPv4 
首部 固定 部 分 之 后 。 我 们 在 A.2 节 指出 ，4 位 的 首部 长 度 字 段 把 ITPv4 首 部 
的 总 长 度 限 制 为 15 个 32 位 字 〈60 字 节 ) ， 因 此 IPv4 选 项 字段 最 长 为 40 个 
字 节 。IPv4 定 义 了 10 种 不 同 的 选项 。 


(1) NOP: no-operation。 单 字 节 选项 ， 典 型 用 途 是 为 某 个 后 续 选 项 
沙 在 4 字 贡 边界 上 提供 填充 。 


(2 EOL: end-of-list。 单 字 节 选项 ， 终 止 选项 的 处 理 。 既 然 各 个 IP 
选项 的 总 长 度 必 须 为 4 字 节 的 倍数 ， 因 此 最 后 一 个 有 效 选项 之 后 可 能 跟 
以 0 一 3 个 EOL 字 节 。 
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(3) LSRR: loose source and record route (ITCPv1 的 8.5 节 ) 。 我 们 稍 
后 给 出 使 用 本 选项 的 一 个 例子 。 


(4) SSRR: strict source and record route (CTCPv1 的 8.5 节 ) : 我 们 稍 
后 给 出 使 用 本 选项 的 一 个 例子 。 


(5) Timestamp 《TCPV1 的 7.4 节 ) 。 
(6) Record route (CTCPv1 的 7.3 节 ) 。 
(7) Basic security 〈 已 作废 ) 。 

(8) Extended security 〈 已 作废 ) 。 
(9) Stream identifier 〈 已 作废 ) 。 


(10) Router alert。 这 是 在 RFC 2113 [Katz 1997] 中 叙述 的 一 种 选 
项 。 包 含 该 选项 的 卫 数 据 报 要 求 所 有 转发 路 由 器 都 查看 其 内 容 。 


TCPv2 第 9 草 提 供 了 关于 内 核 如 何 处 理 前 6 种 选项 的 具体 细节 ， 上 面 


指出 的 TCPv1 相 关 章 节 给 出 了 如 何 使 用 它们 的 例子 。RFC 1108 [Kent 
1991] 给 出 了 关于 那 2 种 安全 选项 的 细节 ， 它 们 未 得 到 广泛 使 用 。 


读 取 和 设置 IP 选 项 字段 使 用 getsockopt 和 setsockopt (level 参 数 
为 IPPROTO_IP，optname 参 数 为 IP_oPTIONS) 。 这 两 个 函数 的 第 四 个 参数 
是 指 癌 某 个 缓冲 区 〈 其 大 小 小 于 等 于 44 字 节 ) 的 一 个 指针 ， 第 五 个 参数 
是 该 缓冲 区 的 大 小 。 访 组 神 区 的 大 小 之 所 以 可 以 比 选项 字段 的 最 大 长 度 
多 出 4 个 字 节 是 由 源 路 径 选 项 的 处 理 方式 使 然 ， 我 们 稍 后 就 会 讲解 到 。 
除了 两 种 源 路 径 选项 外 ， 其 他 选项 在 该 组 种 区 中 的 格式 就 是 把 它们 置 于 
IP 数 据 报 中 的 格式 。 


使 用 setsockopt 设 置 了 了 选项 之 后 ， 在 相应 套 接 字 上 发 送 的 所 有 了 PP 数 
据 报 都 将 包括 这 些 选 项 。 可 以 在 其 上 设置 IP 选 项 的 套 接 字 包括 TCP、 
UDP 和 原始 了 P 套 接 字 。 清 除 这 些 选 项 同样 使 用 setsockopt， 只 是 既 可 把 
第 四 个 参数 指定 为 空 指针 ， 也 可 把 第 五 个 参数 《长度 ) 指定 为 0。 


对 于 已 经 设置 了 IP_HDRINCL 套 接 字 选项 (我 们 将 在 下 一 章 中 讲解 该 
选项 ) 的 一 个 原始 IP 套 接 字 ， 并 非 所 有 实现 都 支持 再 为 它 设 置 IP 选 项 。 
许多 源 自 Berkeley 的 实现 在 IP_HDRINCL 选 项 开启 时 不 发 送 使 
用 IP_opPTIONS 设 置 的 IP 选 项 ， 因 为 应 用 进程 可 能 在 它 构 造 的 IP 首 部 中 设 
置 了 它 自己 的 节选 项 CTCPv2 第 1056 一 1057 行 ) 。 其 他 系统 〈 例 如 
FreeBSD) 人 允许 应 用 进程 或 者 使 用 IP_oPTIONS 套 接 字 选项 设置 IP 选 项 ， 
或 者 通过 开启 IP_HDRINCL 并 在 目 己 构 造 的 IP 首 部 中 包括 IP 选 项 达到 设置 
目的 ， 不 过 不 能 混合 使 用 这 两 种 方式 。 


当 调 用 getsockopt 获 取 由 accept 创 建 的 某 个 已 连接 TCP 套 接 字 的 IP 
选项 时 ， 返 回 的 是 在 相应 监听 套 接 字 上 收 到 的 客户 SYN 分 节 所 在 卫 数 据 
报 中 可 能 出 现 的 源 路 径 选项 的 逆转 〈TCPv2 第 931 页 ) 。 源 路 径 被 TCP 自 
动 送 转 顺序 ， 因 为 由 客户 指定 的 是 从 客户 到 服务 器 的 源 路 径 ， 服 务 器 却 
需要 在 发 送 到 客户 的 数据 报 中 使 用 该 路 径 的 逆转 。 如 果 没 有 源 路 径 伴 随 
SYN 分 节 ， 那 么 由 getsockopt 通 过 第 五 个 参数 返回 的 “ 值 一 结果 ”长 度 为 
0。 对 于 所 有 其 他 TCP 套 接 字 及 所 有 UDP 套 接 字 和 原始 IP 套 接 字 而 言 ， 
调用 getsockopt 获 取 卫 选项 返回 的 仅仅 是 以 前 对 于 同一 个 套 接 字 调 
用 setsockopt 设 置 的 IP 选 项 的 一 个 副本 。 注 意 对 于 一 个 原始 IP 套 接 字 ， 
输入 函数 总 是 返回 包括 任何 人 P 选 项 在 内 的 接收 IP 首 部 (也 就 是 到 达 IP 首 
部 )， 因 此 接收 IP 选 项 (也 就 是 到 达 IP 选 项 ) 也 总 是 可 得 的 。 
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源 自 Berkeley 的 内 核电 从 来 不 为 UDP 套 接 字 返 回 所 收取 的 源 路 径 选 
项 或 其 他 任何 IP 选 项 。TCPv2 第 775 页 所 示 的 返回 IP 选 项 的 的 代码 从 
BSD4.3 Reno 以 来 一 直 存 在 ， 不 过 因为 不 起 作用 而 总 是 被 注释 掉 。 这 使 
een FE RIK ERREFE RI AE I H E H R T6 HJ 3 


273 ”IPv4 源 路 径 选 项 


源 路 径 (source route) 是 由 IP 数 据 报 的 友 送 者 指定 的 一 个 IP 地 址 列 
表 。 如 果 源 路 径 是 严格 的 《〈strict) ， 那 么 数据 报 必 须 且 只 能 逐一 经 过 所 
列 的 节点 。 也 就 是 说 列 在 源 路 径 中 的 所 有 节点 必须 前 后 互 为 邻居 。 如 果 
源 路 径 是 宽松 的 〈loose) ， 那 么 数据 报 必须 逐一 经 过 所 列 的 节点 ， 不 过 
也 可 以 经 过 未 列 在 源 路 径 中 的 其 他 节点 。 


IPv4 的 源 路 由 是 有 争议 的 。 尽 管 它 可 能 对 网 络 排 障 非常 有 用 ， 却 也 
可 能 被 用 于 “ 源 地 址 欺骗 * 等 攻击 之 中 。 [Cheswick, Bellovin, and Rubin 
2003」 倡 议 在 所 有 路 由 器 上 禁用 该 特性 ， 许 多 组 织 机 构 和 服务 提供 商 也 
这 么 做 了 。 源 路 由 的 合理 用 途 之 一 是 使 用 traceroute 程 序 检测 非 对 称 的 
路 径 ， 就 像 TCPv1 第 108 一 109 页 展示 的 那样 ， 然 而 随 着 因特网 上 有 越 来 
越 多 的 路 由 器 禁用 源 路 由 ， 这 个 用 途 也 将 消失 。 不 过 无 论 如 何 指定 和 收 
取 源 路 径 是 套 接 字 API 的 部 分 内 容 ， 因 而 仍然 需要 讲解 。 


IPv4 源 路 径 称 为 源 和 记录 路 径 (source and record routes, SRR, 其 
中 LSRR 表 示 宽 松 的 选项 ，SSRR 表 示 严 格 的 选项 ) ， 因 为 随 着 数据 报 逐 
一 经 过 所 列 的 节点 ， 每 个 节点 都 把 列 在 源 路 径 中 的 目 己 的 地 址 蔡 换 为 外 
出 接口 的 地 址 。SRR 人 允许 接收 者 逆转 新 的 列表 的 顺序 ， 得 到 沿 相 反方 回 
回 到 发 送 者 的 路 径 。TCPv1 的 8.5 节 给 出 了 LSRR 和 SSRR 这 两 种 源 路 径 的 
例子 以 及 相应 的 tcpdump 输 出 。 


我 们 把 源 路 径 指定 为 一 个 IPv4 地 址 数组 ， 并 冠 以 3 个 单字 节 字 段 ， 
如 图 27-1 所 示 。 这 就 是 我 们 传递 给 setsockopt 的 缓冲 区 的 格式 。 

一 
espe pe ome | 
ror we d aru art yu 

图 27-1 向 内 核 传 递 的 源 路 径 
我 们 在 源 路 径 选项 之 前 放置 一 个 NOP 选 项 ， 使 得 所 有 耳 地 址 在 各 自 


的 4 字 节 边界 对 齐 。 这 么 做 并 非 必须 ， 不 过 无 须 占用 额外 空间 (IP 选 项 
忆 是 填充 成 4 字 市 的 倍数 ) ， 还 对 齐 了 地 址 。 
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我 们 在 图 中 展示 的 源 路 径 最 多 有 10 个 IP 地 址 ， 不 过 所 列 的 第 一 个 地 
址 将 在 相应 套 接 字 的 每 个 外 出 IP 数 据 报 即 将 离开 源 主 机 之 际 被 移出 源 路 
径 选 项 ， 并 成 为 IP 数 据 报 的 目的 地 址 。 尽 管 40 字 节 的 IP 选 项 空间 ( 别 忘 
了 我 们 马上 讲解 的 3 字 节 选项 首部 所 占 空 间 ) 只 能 存放 9 个 耻 地 址 ， 如 果 
把 目的 地 址 字段 也 包括 在 内 ， 那 么 IPv4 首 部 中 实际 上 有 10 个 IP 地 址 。 


code 字 上 段 对 于 LSRR 为 0x83， 对 于 SSRR 为 0x89。len 字 上 段 用 于 指定 选 
项 的 字 节 长 度 ， 包 括 3 字 节选 项 首部 和 处 于 末尾 的 额外 的 最 终 目的 地 址 
(该 地 址 不 属于 源 路 径 ) 。 对 于 由 1 个 IP 地 址 构成 的 源 路 径 len 为 11， 对 
于 由 2 个 IP 地 址 构成 的 源 路 径 len 为 15， 以 此 类 推 ， 直 到 由 9 个 IP 地 址 构成 
的 源 路 径 len 为 最 大 值 43。NOP 不 属于 本 SSR 选 项 ( 它 自 成 一 个 单字 节 IP 
选项 ) ， 因 而 不 包括 在 jen 字 段 的 闻 盖 范围 之 内 ， 不 过 包括 在 给 
setsockopt 指 定 的 缓冲 区 大 小 之 中 。 当 源 路 径 地 址 列表 中 的 第 一 个 地 址 
被 移 走 并 置 于 卫 首 部 的 目的 地 址 字段 时 ， 这 个 len 值 被 减 去 4 (TCPv2 图 
9-32 和 图 9-33) 。Pptr 是 一 个 指针 ， 也 就 是 路 径 中 下 一 个 竺 处理 下 地 址 的 
偏 移 量 ， 初 始 值 为 4， 表 示 指 癌 第 一 个 IP 地 址 。 访 字段 的 值 随 着 IP 数 据 
报 被 每 个 所 列 节点 处 理 而 逐次 加 上 4。 


我 们 现在 开发 3 个 函数 ， 分 别 初始 化 、 创 建 和 处 理 一 个 源 路 径 选 
项 。 这 些 函 数 只 处 理 源 路 径 IP 选 项 。 尽 管 源 路 径 结合 其 他 IP 选 项 〈 例 如 
路 由 器 警告 ) 也 是 可 能 的 ， 但 这 样 的 组 合 很 少 使 用 。 图 27-2 是 第 一 个 函 
数 inet_srcrt_init 以 及 用 于 构造 选项 内 容 的 一 些 静 态 变 量 。 


ipopts‘sourcerante.c 














1 #include *urp.h" 
2 #include <netinst/in_systm.h> 
3 #include «nctinst/io.h» 


~ 


* pointer into options being formed */ 
+ pointer to length byte in SHR option */ 
¥ count Cf # addressee */ 


4 BgBzatic u_char *optr; 
5 ezvatic u char *lenptr; 
6 static irt onz; 


M 


7 u char * 


B inet srcrt in--í(int type; 

- | 

10 o-tr = Mallocí44); /* NOP, code, len, ptr, up tc 10 addresses */ 
11 bzero(optr, 44): /* guarantees ELR at end */ 
12 ont = 0; 

13 *cptre« = TPOPT NOP; /* NOP for alignment */ 

14 *coptr+e = type ? -EOFT S3BR ; IPOFT_LSRR; 

15 lenptr = optr++; /* we fill in length later */ 
16 *cpErre = 4; /* offset to Eirs= address */ 
17 return!opzr - 4:; /* pointer for sezsockopt[) */ 
18 : 


ipopls/sourceraule. c 


图 27-2 inet srcrt initbÉ ZA: 为 构建 一 个 源 路 径 进 行 初 始 化 
初始 化 


19-17 “分 配 一 个 最 大 长 度 〈44 字 节 ) 的 缓冲 区 并 将 它 清 零 。EOL 
选项 的 值 为 0， 因 此 清 零 操作 把 整个 选项 缓冲 区 初始 化 为 EOL 字 节 。 接 
着 按照 图 27-1 设 置 源 路 径 选 项 首部 ， 包 括 用 于 对 齐 的 NOP、 源 路 径 类 型 
(LSRRERSSRRO 、 长 度 和 指针 。 保 存 指 回 len 字段 的 一 个 指针 ， 以 后 每 
往 地 址 列表 中 加 入 一 个 地 址 ， 就 在 该 字段 中 存 入 新 值 。 把 指向 选项 缓冲 
区 的 指针 返回 给 调用 者 ， 以 便 作为 第 四 个 参数 传递 给 setsockopt。 


下 一 个 函数 inet_srcrt_add (427-3) 把 一 个 IPv4 地 址 加 到 正在 构 
建 的 源 路 径 上 。 














ipopts/sourcerorde.c 


19 int 

20 inet srcrt add(char *hootptr! 

z2 int ler: 

et etruct addrirfo taij 

a4 struct sockacdr in *sin; 

25 iE (ocnt > s) 

26 err quit("toc many source rcurzes with: e", nostptr): 
27 al = Host serv(hostp-r, NULL, AF INET, 3); 

ZR sin = (struct sockaddr in *) &i-»ai addr; 

29 menzpy!ap-r. &sir-»sin add-, sizezf(s-ricr in adir); 
an É redire infoaota); 

31 oztr += gizeofistruct in addr): 

323 oznt::; 

33 len = 3 + locnt * sizeof(struct in addr!): 

34 *lenpzr = ler; 

35 raturn!len + 1): /* size fox setsccropt() */ 
36 5 


ipopts/sovrcerotdte.c 


图 27-3 inet srcrt addPAÁZ: 向 源 路 径 加 入 一 个 IPv4 地 址 


19-20 ”参数 指 同一 个 主机 名 或 一 个 点 分 十 进 制 数 串 卫 地 址 。 
检查 溢出 


25-26 ”我 们 检查 尚未 指定 过 多 的 地 址 ， 如 果 这 是 第 一 个 地 址 则 将 
其 初始 化 。 


取得 二 进 制 IP 地 址 并 存 入 路 径 











27-35 ”调用 我 们 的 host_serv 函 数 转换 主机 名 或 把 分 十 进 制 数 串 ， 
并 把 最 终 的 二 进 制 地 址 存 入 路 径 地 址 列表 。 更 改 jen 字 段 的 值 ， 返 回 组 
冲 区 的 总 长 度 〈 包 括 NOP) ， 以 便 调 用 者 把 它 作为 第 五 个 参数 传递 给 


setsockopt. 
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通过 getsockopt 调 用 返回 给 应 用 进程 的 接收 源 路 径 格 式 不 同 于 图 27- 
1 所 示 的 发 送 源 路 径 。 图 27-4 展 示 了 接收 格式 。 
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图 27-4 getsockopt 返 回 的 源 路 径 选 项 格式 


首先 ， 地 址 的 顺序 是 所 收取 的 源 路 径 被 内 核 逆 转 后 的 顺序 。 这 
里 < 逆转 ? 指 的 是 如 果 所 收取 的 源 路 径 按 顺序 包括 A、B、C 和 D 四 个 地 
址 ， 该 路 径 的 逆转 顺序 就 是 D、C、B 和 A。 头 4 个 字 节 是 该 列表 的 第 一 
个 了 地址， 后 跟 一 个 单字 节 NOP (为 了 对 齐 ) ， 再 跟 以 3 字 节 源 路 径 选 
项 首部 ， 最 后 跟 以 其 余 的 IP 地 址 。3 字 节选 项 首部 之 后 最 多 可 跟 以 9 个 IP 
地 址 ， 所 返回 首部 中 len 字 上 段 相 应 的 最 大 值 为 39。NOP 始 终 存 在 ， 因 此 
由 getsockopt 返 回 的 长 度 于 是 总 为 4 字 节 的 倍数 。 


" 图 27-4 所 示 的 格式 在 <netinet/ip_var.h> 头 文件 中 定义 为 如 下 结 


#define MAX IPOPTLEN 40 











struct ipoption{ 
struct in addr ipopt dst; /* first hop dst if source routed */ 
char ipopt list[MAX IPOPTLEN]; /* options proper*/ 

H 





poc 我 们 发 现 自行 分 析 数 据 同样 容易 ， 于 是 没有 使 用 这 个 


iponts/sotircevoute.c 





37 void 


36 inst srcrt print(u chez *ptr, int len! 

39 | 

10 u_char c; 

11 char str[INET_ADDRSTRLES] ; 

iz struct ir addr hopl; 

42 memcpy (&hosl, ptr, ciscor(struct in_addr) )}; 

44 ptr += Bizeof (struct in addr); 

35 while ( (c = *ptr++) -- IFOPT NCP) ; /* skip any leading Nope */ 
46 iz (o == TOW LSRR) 

ii rin-f ("receives LSRR: "); 

4E else if (c == IPOPT SSRK) 

49 Srinzt ("receives SSRR: "); 

so else [ 

51 prin-f('"receiveià aptin type &jWn*, c); 

52 return; 

A3 

sd p-intf£(*8$s *, Tnet ntopi(AF IMRT, &hopl, str, sizeafistr))): 
85 len a *plre- - sizen^ist rack. in_arkir) : /* auhteact dest TP addr */ 
5€ ptre+; /* skir over pointer */ 

51 while (2n > 0) [ 

36 printf ("$s ', Inet_ntep(AF_INET, ptr, str, sizeof(str))); 
59 ptr += sizeofistruct in_addr); 

60 len -= sizeofistruct in_addr); 

61 

G2 pzintf{*\n"]; 

62 ] 


ipopts/sourceroute.c 


图 27-5 inet srcrt printPAZ: 显示 一 个 接收 源 路 径 


这 个 返回 的 格式 不 同 于 我 们 传递 给 setsockopt 的 格式 。 如 果 想 要 把 
图 27-4 中 的 格式 转换 到 图 27-1 中 的 格式 ， 我 们 束 必 须 对 换 头 4 个 字 节 和 随 
后 的 4 个 字 节 ， 再 给 len 字 段 加 上 上 4。 所 六 的 是 我 们 并 非 必须 这 么 做 ， 
为 源 自 Berkeley 的 实现 对 于 TCP 套 接 字 上 自动 使 用 来 自 SYN 所 在 IP 数 据 报 
的 接收 源 路 径 的 逆转 。 换 句 话 说， 图 27-4 展 示 的 由 getsockopt 返 回 的 源 
路 径 信息 纯粹 用 于 了 解 目 的 。 我 们 不 必 调 用 setsockopt 告 诉 内 核 使 用 该 
路 径 发 送 相 应 TCP 连 接 上 的 外 出 下 数据 报 ， 内 核 目 动 这 么 做 了 。 我 们 稍 
后 随 TCP 回 射 服务 吉 程 序 的 修改 查看 这 样 的 一 个 例子 。 


下 一 个 源 路 径 函 数 取 得 图 27-4 所 示 格 式 的 一 个 接收 源 路 径 并 显示 该 
信息 。 图 27-5 给 出 了 这 个 名 为 inet_srcrt_print 的 函数 。 


保存 第 一 个 IP 地 址 并 跳 过 任何 NOP 
43~45 ”保存 缓冲 区 中 的 第 一 个 IP 地 址 ， 跳 过 后 跟 的 任何 NOP。 
检查 源 路 径 选 项 


46~62 ”我 们 只 显示 源 路 径 信息 ， 从 3 字 节 首部 中 ， 我 们 检查 code， 
取出 ljen， 并 跳 过 ptr。 我 们 接着 显示 跟 在 3 字 节 首部 之 后 的 所 有 耳 地 址 ， 
不 过 末尾 那个 目的 IP 地 址 除外。 


27.3.1 例子 


我 们 现在 把 TCP 回 射 客户 程序 改 为 指定 一 个 源 路 径 ， 把 ICP 回 射 服 
务 右 程序 改 为 显示 一 个 接收 源 路 笃 。 图 27-6 是 我 们 的 客户 程序 。 











ipopts/tcpcliüll.c 








1 finclu3e *umo.h" 


2 int 


3 main(irt arqc, char **aray) 


int Cc, cockzd, len = 0; 
u cnar "ptr = NULL; 
sr eddrinfo tai; 
if (arge < 2) 
err zuit("usage: tcpclzci [ -[gG] -hostname> ... ] «<hostname>"); 
octerr = 0; /^ da't want getopt i) writing tc stderr 4/ 
wnile 4 ic = getcphiarge, argv, "gG'"}) t= -1) ( 
switch [z) 1 
case 'g': /* looss source route */ 
32 Deer] 
err_quit ("can't use bota -g and -G"!; 
ptr - inet_srert_init (0), 
bzczak; 
cage "G's /* ctrict cource route +j 
a= (ptr) 
err quit("can't use bota -g and -G"); 
ptr - inet srert init(.); 
break; 
cage '? : 
err quit ("unrecogrized cpricn: tc", =); 
1 
Í 
if (ptr) 
while (optind « argc-1! 
len - inet_srert_sdd largvfoptind++1! ; 
else if !optini < argc-1) 
err_quit ("need -g or -G tc apecify ssute"! ; 
if (optind != arge-1) 
err cuit("ricsing <hostrame>") ; 
ai = Host serviargyv(cptind), SERV PCRT STR, AF INET, SCCK STREAM]; 
Scckfd = Socket(al-»ai family, ai->ai_ socktvpe, ei-»ai protocol); 
if (pcr) ( 
ler = inst srcrt add(arcv[optind]); /* dest az erd */ 
Setsockoct (sockfd, TIPERITD TP, TP OPTIOMS, ptr, lem: 
free(prr); 
1 
Ccnsect(sockfd, a-:-»ai add-, si-»ai addrlen!; 
str cli(stdir, scckfd); /* do it all +7 


exit); 


ipopistepeli0hec 


图 27-6 ”指定 一 个 源 路 径 的 TCP 回 射 客户 程序 


12-26 调用 inet_srcrt_init 图 数 初 始 化 源 路 径 ， 路 径 类 型 由 命令 
行 选项 -g (表示 LSRR) 或 -6〈 表 示 SSRR) 指定 。 


27-33 ”如 果 初 始 化 成 功 ， 那 么 ptr 指 针 不 为 空 ， 我 们 于 是 调 
用 inet_srcrt_add 函 数 把 通过 命令 行 指定 的 每 个 中 间 地 址 加 到 源 路 径 
。 和 否则 如 果 剩 余 命 令 行 参数 不 止 一 个 ， 那 是 用 户 指定 了 路 径 却 没有 指 
定 其 类 型 ， 我 们 就 要 显示 出 错 消 晨 并 退出 。 


714-716 
处 理 目的 地 址 并 创建 套 接 字 


34-35 ”最 后 一 个 命令 行 参数 是 服务 器 主机 的 主机 名 或 点 分 十 进 制 
数 串 地 址 ， 由 我 们 的 host_serv 函 数 处 理 。 这 里 不 能 调用 我 们 的 
tcp_connect 函 数 ， 因 为 我 们 必须 在 socket 和 connect 这 两 个 调用 之 间 指 
定 源 路 径 。connect 将 发 起 三 路 握手 ， 我 们 期 望 SYN 分 节 所 在 初始 外 出 
分 组 和 所 有 后 续 外 出 分 组 都 使 用 这 个 源 路 径 。 


3e-42 ”如 果 用 户 指 定 了 一 个 源 路 径 ， 我 们 就 必须 把 服务 器 的 IP 地 
址 加 到 IP 地 址 列表 的 末尾 (图 27-1) 。setsockopt 给 套 接 字 安装 源 路 
径 。 接 着 我 们 调用 connect， 随 后 调用 我 们 的 str_c1li 函 数 〈( 图 5-5) 。 


我 们 的 TCP 服 务 器 程 厅 几 乎 等 同 于 图 5-12 中 的 版 本 ， 只 有 两 处 改 
动 。 我 们 首先 为 IP 选 项 分 配 空间 : 


int len; 
u char *opts; 








opts - Malloc(44); 





然后 在 调用 accept 之 后 但 在 调用 fork 之 前 获取 并 显示 IP 选 项 : 


len = 44; 
Getsockopt(connfd, IPPROTO IP, IP OPTIONS, opts, &len); 
if (len > 0) ( 
printf("received IP options, len = %d\n", len); 
inet srcrt print(opts, len); 


} 


如 果 所 收取 的 来 自 客 户 的 SYN 分 节 所 在 卫 数 据 报 不 包含 任何 卫 选 
项 ， 那 么 由 getsockopt 返 回 的 jen 变 量 结果 将 为 0 (len 是 一 个 “ 值 一 结 
果 ” 参 数 ) 。 正 如 早先 所 提 ， 我 们 不 必 做 任何 事情 导致 TCP 使 用 所 收取 
源 路 径 的 逆转 : 这 是 TCP 自 动 完 成 的 《TCPvV2 第 931 页 ) 。 我 们 调 
用 setsockopt 只 是 为 了 获取 逆转 了 的 接收 源 路 径 的 一 个 副本 。 如 果 不 希 
望 TCP 使 用 这 个 路 径 ， 那 么 我 们 可 以 在 accept 返 回 之 后 通过 指定 其 第 五 
个 参数 (长 度 ) 为 0 调用 setsockopt， 从 而 去 除 当 前 正在 使 用 的 IP 选 项 。 
TCP 已 在 三 路 握手 〈 图 2-5) 第 二 个 分 节 所 在 IP 数 据 报 中 使 用 接收 源 路 径 
的 逆转 ， 不 过 如 果 我 们 后 来 去 除了 这 些 选项 ， 那 么 相应 TCP 连 接 中 以 后 
发 送 到 客户 的 分 组 将 纯粹 由 IP 确 定 外 出 路 径 。 


我 们 接着 给 出 指定 源 路 径 运 行 以 上 客户 /服务 右 程 序 的 一 个 例子 。 
适当 地 配置 源 路 径 的 处 理 和 分 组 的 转发 之 后 ， 我 们 在 主机 freebsd4 上 按 
以 下 方式 运行 客户 : 


freebsd4 % tcpcli01 -g macosx freebsd4 macosx 


在 进行 了 处 理 源 路 径 和 转发 IP 的 适当 配置 后 ， 该 命令 导致 IP 数 据 报 
从 freebsd4 转 发 到 macosx， 再 转发 回 freebsd4， 最 后 到 达 运 行 服务 器 的 
主机 macosx。 两 个 中 间 系 统 freebsd4 和 macosx 必 须 接 受 并 转发 源 路 由 的 
数据 报 ， 以 使 本 例子 能 够 工作 。 印 
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连接 建立 之 时 服务 器 的 输出 如 下 : 


macosx % tcpserv01 
received IP options, len - 16 
received LSRR: 172.24.37.94 172.24.37.78 172.24.37.94 


显示 的 第 一 个 下地 址 是 逆转 路 径 的 第 一 跳 (freebsd4， 如 图 27-4 所 
IR) ， 下 两 个 地 址 的 顺序 也 和 服务 器 把 数据 报 发 送 回 客 户 所 用 的 顺序 一 
致 。 如 果 使 用 tcpdump 观 察 客 户 / 服 务 器 的 交互 ， 我 们 就 可 以 看 到 两 个 方 
癌 上 每 个 数据 报 中 的 源 路 径 选 项 。 


不 对 的 是 ，IP_oPTIONS 套 接 字 选项 的 操作 从 未 有 过 正式 文档 ， 因 而 
在 不 是 源 目 Berkeley 源 代码 的 系统 上 可 能 会 磁 到 一 些 异 变 。 举 例 来 说 ， 
在 Solaris ”2.5 系统 上 由 getsockopt 在 缓冲 区 中 返回 的 第 一 个 地 址 〈 图 27- 





4) 并 不 是 返 转 路 径 的 第 一 跳 地 址 ， 而 是 对 端 主机 的 地 址 。 尽 管 如 此 ， 
由 TCP 使 用 的 逆转 路 径 仍然 是 正确 的 。 另 外 ，Solaris 2.5 总 是 在 源 路 径 选 
项 之 前 填充 4 个 NOP， 从 而 限制 源 路 径 最 多 有 8 个 了 地 址 ， 而 不 是 实际 最 
多 可 达到 的 9 个 。 


27.3.2. ”删除 所 收取 的 源 路 径 


不 羊 的 是 ， 源 路 径 对 于 单纯 使 用 源 耻 地 址 进行 认证 的 服务 恬 程 序 来 
说 存在 一 个 安全 漏洞 。 要 是 茶 个 黑客 作为 客户 发 送 的 分 组 以 一 个 受 服务 
器 信任 的 地 址 作为 源 地 址 ， 又 把 本 地 地 址 包括 在 源 路 径 中 ， 那 么 由 服务 
器 使 用 逆转 的 接收 源 路 径 返 回 的 分 组 将 无 需 经 过 列 在 源 路 径 中 的 所 有 节 
点 就 到 达 黑 客 的 本 地 主机 。 从 Net1 版 本 (1989) 开始 ，rlogind 和 rshd 
这 两 个 服务 器 程序 有 类 似 如 下 的 代码 。 

u char buf[44]; 


char lbuf[BUFSIZ]; 
int optsize; 





optsize - sizeof(buf); 
if (getsockopt(0, IPPROTO IP, IP OPTIONS, 
buf, &optsize) == 0 && optsize != 0) ( 
/* format the options as hex numbers to print in lbuf[] */ 
syslog(LOG NOTICE, 
"Connection received using IP options (ignored):%s", lbuf); 
setsockopt(0, ipproto, IP OPTIONS, NULL, 0); 


如 果 到 达 一 个 含有 任何 卫 选 项 的 已 完成 连接 〈 即 由 getsockopt 返 回 
的 optsize 值 不 为 0) ， 那 就 使 用 syslog 登 记 一 条 消息 ， 再 调 
用 setsockopt 去 除 这 些 选 项 。 这 人 么 做 防止 该 连接 上 以 后 发 送 的 任何 TCP 
分 节 使 用 接收 源 路 径 的 逆转 (实际 上 由 承载 该 TCP 分 节 的 IP 数 据 报 使 
FA) 。 现 在 已 知 这 个 技巧 是 不 充分 的 ， 因 为 到 应 用 进程 接受 该 连接 时 ， 
TCP 三 路 握手 已 经 完成 ， 而 三 路 握手 的 第 二 个 分 节 《〈 图 2-5 中 服务 器 的 
SYN-ACK) 已 经 沿 循 所 收取 源 路 径 的 逆转 回 到 客户 〈 或 者 至 少 回 到 了 
列 在 源 路 径 中 的 某 个 中 间 节 点 ， 黑 客 可 能 恰好 就 在 该 节点 ) 。 既 然 黑客 
己 经 看 到 两 个 方 同上 的 TCP 序 列 号 ， 即 使 来 自 服务 器 的 后 续 分 组 不 再 使 
用 源 路 径 发 送 ， 黑 客 仍 能 够 以 正确 的 序列 号 向 服务 器 发 送 分 组 。 
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解决 这 个 潜在 问题 的 唯一 办 法 是 ， 当 使 用 源 IP 地 址 进行 某 种 形式 的 











认证 时 〈 如 rlogind 和 rshd 所 为 ) ， 禁 止 使 用 源 路 径 到 达 的 所 有 TCP 连 
接 。 在 刚才 给 出 的 代码 片段 中 ， 把 setsockopt 调 用 蔡 换 为 关闭 刚 接受 的 
连接 并 终止 新 派生 的 服务 器 。 这 人 么 一 来 尽管 三 路 握手 的 第 二 个 分 节 已 经 
送出 ， 但 是 连接 却 不 会 仍然 打开 着 。 


27.4 IPv6 扩 展 首部 


我 们 在 图 A-2 中 没有 随 IPv6 首 部 展示 任何 选项 〈IPv6 首 部 的 长 度 总 
e405) ， 不 过 IPv6 首 部 可 以 后 跟 如 下 几 种 可 选 的 扩展 首部 


Cextention header) 。 


(1) 步 跳 选项 Chop by hop options) 。 如 果 有 的 话 步 跳 选项 必须 紧 
跟 40 字 节 的 IPv6 首 部 。 目 前 没有 定义 可 供应 用 程序 使 用 的 这 类 选项 。 


(2) 目的 地 选项 〈destination options) 。 目 前 没有 定义 可 供应 用 程序 
使 用 的 这 类 选项 。 


(3) 路 径 首部 (routing header) 。 这 是 一 个 源 路 由 选项 ， 在 概念 上 
类 似 于 我 们 在 27.3 节 讲解 的 IPv4 源 路 径 选 项 。 


(4) TAH AH (fragmentation header) 。 该 首部 由 对 IPv6 数 据 报 执行 
分 片 的 主机 自动 产生 ， 然 后 由 最 终 目 的 主机 在 重组 片段 时 处 理 。 


(5) 认证 首部 (authentication header, AH) 。 该 首部 的 用 法 在 RFC 
2402 [Kent and Atkinson 1998b | 中 说 明 。 


(6) ZEI TETI (encapsulating security payload, ESP) 。 该 首部 
的 用 法 在 RFC 2406 [Kent and Atkinson ] 中 说 明 。 


其 中 分 片 首 部 完全 由 内 核 处 理 ，AH 和 ESP 这 两 个 首部 可 以 由 内 核 基 
于 SADB 和 SPDB 自 动 处 理 ， 而 SADB 和 SPDB 使 用 pF_kEY 套 接 字 维护 
(第 19 章 ) 。 这 样 只 剩 下 前 3 个 扩展 首部 ， 我 们 将 在 下 两 节 中 讨论 它 
4l]; RFC 3542 [Stevens et al. 2003] 定义 了 指定 和 获取 这 些 扩展 首部 
(包括 其 中 的 选项 ) 的 API。 








27.5 ”IPVv6 步 跳 选 项 和 目的 地 选项 


步 哟 选项 和 目的 地 选项 有 类 似 的 格式 ， 如 图 27-7 所 示 。8 位 的 下 一 
个 首部 (next header) 字段 标识 跟 在 本 扩展 首部 之 后 的 下 一 个 首部 。8 位 
的 首部 扩展 长 度 Cheader extention length) 是 本 扩展 首部 的 长 度 ， 以 8 字 
节 为 单位 ， 但 是 不 包括 第 一 个 8 字 节 。 举 例 来 说 ， 如 果 本 扩展 首部 占据 8 
个 字 节 ， 其 首部 扩展 长 上 度 就 为 0;， 如 果 本 扩展 首部 占据 16 字 节 ， 其 首部 
扩展 长 度 就 为 1， 以 此 类 推 。 这 两 种 首部 都 被 填充 成 8 字 市 的 整数 倍 ， 所 
用 填充 选项 或 为 pad1， 或 为 padN， 我 们 稍 后 讲解 这 两 种 填充 选项 。 




















0 78 15 16 23 24 31 


pp Wd 


中 选项 或 已 的 地 选项 








图 27-7” 步 跳 选 项 和 目的 地 选项 的 格式 
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步 跳 选项 首部 和 目的 地 选项 首部 都 容纳 任意 数量 的 个 体 选 项 ， 其 格 
式 如 图 27-8 所 示 。 


选项 伍 





| | TES EUH 


图 27-8 个 体 步 跳 选 项 或 目的 地 选项 的 格式 


个 体 选项 的 编排 格式 称 为 TLV 编 码 〈TLV coding) ， 因 为 每 个 选项 
都 呈现 为 它 的 类 型 (type) . KÆ Cength) AUB (value) 三 个 字段 。8 
位 的 类 型 字段 标识 选项 类 型 。 除 此 之 外 ， 访 字段 的 高 序 两 位 指定 IPv6 节 


点 在 不 理解 本 选项 的 情况 下 如 何 处 理 它 。 
oo 跳 过 本 选项 ， 继 续 处 理 本 首部 。 
91 AFA AA. 


00 ERAADA, FFAARCADAN H BEES 73— e Hh 
址 ， 均 发 送 一 个 ICMP 人 参数 问题 类 型 2 错误 〈 图 A-16) 给 发 送 者 。 


00 ”于 弃 本 分 组 ， 并 且 只 在 本 分 组 的 目的 地 址 不 是 一 个 多 播 地 址 的 
前 提 下 ， 发 送 一 个 ICMP 参 数 问 题 类 型 2 错误 (图 A-16) 给 发 送 者 。 


下 一 个 高 序 位 指定 本 选项 的 数据 在 途中 有 无 变化 。 

9 选项 数据 在 途中 无 变化 。 

1 选项 数据 在 途中 可 能 变化 。 

低 序 5 位 指定 选项 本 喘 。 需 注意 的 是 ， 低 序 5 位 不 能 孤立 标识 一 个 选 
项 ， 而 是 需要 与 高 序 3 位 共同 标识 。 尽 管 如 此 ， 类 型 字段 的 赋值 仍然 尽 
可 能 保持 低 序 5 位 的 唯一 性 。 


8 位 的 长 度 字 段 指定 选项 数据 的 字 节 长 度 ， 类 型 字段 和 本 长 度 字 段 
不 在 这 个 长 度 的 计量 范围 之 内 。 
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那 两 个 填充 选项 定义 在 RFC 2460 [Deering and Hinden 1998 ] 中， 

在 步 跳 选 项 首部 和 目的 地 选项 首部 中 都 可 以 使 用 。 特 大 净 傈 长 度 
(jumbo payload length) 是 一 个 步 跳 选 项 ， 定 义 在 RFC 2675 | Borman, 
Deering, and Hinden 1999] 中 ， 它 完全 由 内 核 在 需要 时 产生 ， 在 收 到 时 
处 理 。 路 由 器 告警 (router alert) 也 是 一 个 步 跳 选项 ， 在 RFC 
2711 [Partridge and Jackson] 中 讲解 ， 类 似 于 IPv4 的 路 由 器 告 党 。 图 27- 
9 展示 了 这 些 选项 。 定 义 过 的 选项 还 有 一 些 ( 例 如 Mobile-IPV6 所 用 的 一 
些 选 项 ) ， 我 们 不 讨论 它们 。 








特大 兆 荷 长 度 ， 





£P AR. 5 2 值 








图 27-9 ”IPv6 步 跳 选项 


pad1 选 项 是 唯一 没有 长 度 和 值 这 两 个 字段 的 选项 。 它 提供 1 他 市 的 
填充 。padN 选 项 用 于 需要 2 个 或 多 个 字 市 填充 的 场合 。 对 于 2 字 节 填充 ， 
本 选项 的 长 度 字 段 为 0， 整 个 选项 整 由 类 型 和 长 有 度 这 两 个 字段 构成 。 对 
于 3 字 市 填充 ， 本 选项 的 长 度 字段 为 1， 后 跟 1 字 节 的 0 值 。 特 大 净 答 长 度 
选项 提供 一 个 32 位 的 数据 报 长 度 ， 用 于 图 A-2 中 展示 的 16 位 净 茵 长度 字 
段 不 够 大 的 场合 。 路 由 需 告 警 选项 指示 本 分 组 应 由 沿途 路 由 器 截取 ， 其 
值 指 出 哪些 路 由 器 需 关 注 本 分 组 。 


我 们 展示 这 些 选 项 的 原因 在 于 每 个 步 跳 选 项 和 目的 地 选项 都 有 一 个 
对 齐 要 求 (alignment requirement) ， 写 作 xn+y， 表 示 这 个 选项 必须 出 现 
在 距离 所 在 扩展 首部 开始 处 x 字 节 整 数 倍 加 y 字 节 的 位 置 。 举 例 来 说 ， 特 
大 净 荷 长 度 选 项 的 对 齐 要 求 是 4n+2， 该 要 求 迫使 4 字 节 的 选项 值 〈 特 大 
Pap CRE) 处 于 某 个 4 字 节 边界 。 该 选项 的 y 值 取 2 是 因为 出 现在 每 个 步 
跳 选 项 和 目的 地 选项 值 字 段 之 前 的 2 个 字 节 (图 27-8)〉 。 路 由 器 告警 选 
项 写作 2n+0 的 对 齐 要求 迫 使 2 字 节 选项 值 处 于 某 个 2 字 贡 边界 。 
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步 跳 选项 和 目的 地 选项 通常 作为 辅助 数据 通过 调用 sendmsg 指 定 ， 
并 由 recvmsg 调 用 作为 辅助 数据 返回 。 应 用 进程 无 需 为 发 送 这 两 类 选项 





做 任何 特别 之 事 ， 而 只 需 在 某 个 sendmsg 调 用 中 指定 它们 。 为 了 接收 这 
两 类 选项 ， 应 用 进程 必须 开局 对 应 的 套 接 字 选 项 : 步 跳 选项 对 应 
IPV6_RECVHOPOPTS， 目 的 地 选项 对 应 IPV6_RECVDSTOPTS。 举 例 来 说 ， 人 允 
许 这 两 类 选项 都 返回 的 代码 如 下 。 


const int on = 1; 





setsockopt(sockfd, IPPROTO IPV6, IPV6 RECVHOPOPTS, &on, sizeof(on)); 
setsockopt(sockfd, IPPROTO IPV6, IPV6 RECVDSTOPTS, &on, sizeof(on)); 


图 27-10 展 示 了 用 于 发 送 和 接收 步 跳 选 项 和 目的 地 选项 的 辅助 数据 
对 象 的 格式 。 








emsghdr { } emsghdr{} 
emsg_ ien 
cmsg level IPPROTO IPV6 cmsg level IPPROTO IPVé 
cmag type IPVA HOPOPTS cmsg type TPV& DSTOPTS 
= = PR E 
Ap BARA TH H mt ut Ti 

















图 27-10 ” 步 跳 选项 和 目的 地 选项 的 辅助 数据 对 象 


这 两 类 选项 首部 的 实际 内 容 作 为 辅助 数据 对 象 的 cmsg_data 部 分 在 
进程 和 内 核 之 间 传 递 。 为 了 避免 直接 定义 这 些 内 容 ， 相 关 API 定 义 了 7 个 
用 于 创建 和 处 理 这 些 辅助 数据 对 象 数 据 部 分 的 函数 。 以 下 4 个 函数 用 于 
构造 待 发 送 的 选项 。 
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#include «netinet/in.h» 


int inet6 opt init(void *extbuf, socklen t extlen); 























返回 : VAN RE AT i I, - 1 








int inet6_opt_append(void *extbuf, socklen_t extlen, 
int offset, uint8_t type, socklen_t len, 
uint8_t align, void **databufp); 











返回 : 添加 选项 后 更 新 的 扩展 首部 总 长 度 ， 若 出 错 则 














为 -1 


int inet6 opt finish(void *extbuf, socklen t extlen, int offset); 























返回 : 完成 设置 后 更 新 的 扩展 首部 总 长 度 ， 若 出 错 则 





























为 -1 


int inet6 opt set val(void *databuf, int offset, 
const void *val, socklen t vallen); 








[|]: databuf 中 新 的 偏 





Es 














inet6_opt_init 返 回 容纳 一 个 空 扩展 首部 所 需 的 字 节 数 。 如 果 extbuf 
指针 参数 不 为 空 ， 它 就 初始 化 这 个 扩展 省 部。 如 果 extbuf 参 数 不 为 空 ， 
但 是 extlen 参 数 却 不 是 8 的 倍数 ， 它 束 以 -1 失败 返回 。〈 所 有 IPv6 步 跳 和 
目的 地 选项 扩展 首部 必须 是 8 的 倍数 。) 


inet6_opt_append 返 回 添加 指定 的 个 体 选 项 后 更 新 的 扩展 首部 总 长 
度 。 如 果 extbuf 参 数 不 为 空 ， 它 就 初始 化 该 个 体 选项 并 按照 对 齐 要 求 插 
入 必要 的 填充 。 如 果 所 提供 的 缓冲 区 放 不 下 新 选项 ， 它 就 以 -1 失败 返 
回 。offset 参 数 是 当前 游 动 的 总 长 度 ， 必 须 是 先前 某 个 inet6_opt_init 
或 ijnet6_opt_append 调 用 的 返回 值 。 参 数 type 和 len 分 别 指定 了 选项 的 类 
型 和 长 度 ， 并 直接 被 复制 到 选项 首部 中 。align 参 数 指定 对 齐 要 求 ， 
即 xn+y 中 的 x 值 ， 而 y 值 可 由 align 和 len 值 得 出 ， 因 此 不 必 显 式 地 指 
定 。databufp 参 数 用 于 返回 指 同 所 添加 选项 值 的 填写 位 置 的 一 个 指针 ， 
ume UJ si F]inete opt set valPK Zi eX Hf 77 130€ br EL 
先 项 值 。 


inet6_opt_finish 用 于 结束 一 个 扩展 首部 的 设置 ， 添 加 任何 必要 的 
填充 ， 使 得 总 长 度 为 8 的 倍数 。 如 果 extbuf 参 数 不 为 室 ， 它 就 把 填充 真正 
插入 绥 冲 区 中 ， 否 则 它 只 是 计算 并 更 新 总 长 度 。 Hinet6 opt append— 
样 ，offset 参 数 是 当前 游 动 的 总 长 上 度 ， 必 须 是 先前 某 个 inet6_opt_init 
或 inet6_opt_append 调 用 的 返回 值 。 本 函数 返回 已 完成 设置 的 扩展 首部 
总 长 度 ， 不 过 如 有 末 所 提供 的 缓冲 区 放 不 下 所 需 的 填充 ， 那 就 返回 -1。 
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inet6_opt_set_val 用 于 把 给 定 的 选项 值 复 制 到 由 inet6_opt_append 
返回 的 数据 绥 冲 区 中 。databuf 参 数 是 由 inet6_opt_append 返 回 的 指 
针 。offset 参 数 在 该 数据 绥 冲 区 内 的 游 动 长 度 ， 调 用 者 必须 为 每 个 选项 将 
其 初始 化 为 0， 以 后 随 着 这 个 选项 的 构造 完成 ， 该 参数 就 是 前 一 
个 ijnet6_opt_set_val 调 用 的 返回 值 。 参 数 val 和 valen 用 于 指定 复制 到 选 
项 值 绥 冲 区 中 的 值 。 


























这 些 函 数 的 期 望 用 法 是 过 历 两 趟 竺 添加 的 个 体 选 项 列表 : 第 一 趟 用 
于 计算 预期 的 长 度 ， 第 二 趟 用 于 把 各 个 选项 实际 构造 到 大 小 合适 的 缓冲 
区 中 。 无 论 哪 一 趟 都 是 先 调用 inet6_opt_init， 再 为 每 个 待 添加 的 选项 
调用 一 次 inet6_opt_append， 最 后 以 调用 inet6_opt_finish 结 束 。 第 一 
趟 中 传递 给 extbuF 和 extien 这 两 个 参数 的 分 别 是 NULL 和 0。 第 一 趟 结束 后 
使 用 由 inet6_opt_finish 返 回 的 大 小 动态 分 配 用 于 存放 选项 扩展 首部 的 
绥 冲 区 ， 第 二 越 中 就 使 用 指 同 该 缓冲 区 的 一 个 指针 及 该 绥 冲 区 的 长 度 作 
为 extbuf 和 extlen 这 两 个 参数 的 值 ， 在 第 二 趟 中 ， 每 个 选项 的 值 或 者 手工 
复制 ， 或 者 调用 inet6_opt_set_val 复 制 。 我 们 也 可 以 预先 分 配 一 个 对 于 
竺 添加 的 选项 来 说 应 该 足够 大 的 缓冲 区 ， 从 而 省 略 抒 第 一 越 ， 不 过 缓冲 
区 的 大 小 有 时 候 不 易 预 估 ， 有 可 能 导致 第 二 趟 以 失败 告终 。 


其 余 3 个 函数 用 于 处 理 所 接 收 的 选项 。 


include «netinet/in.h» 





int inet6 opt next(const void *extbuf, socklen t extlen, int offset, 
uint8 t *typep, socklen t *lenp, void **databufp); 











返回 : 若 存 在 下 一 个 选项 则 为 其 仿 

















oa, 否则 或 车 出 错 则 为 -1 


int inet6 opt find(const void *extbuf, socklen t extlen, int offset, 
uint8 t type, socklen t *lenp, void **databufp); 















































返回 : 若 存 在 下 一 个 选项 则 为 其 偏 移 量 ， 和 否则 或 若 出 错 则 为 -1 




















int inet6 opt get val(const void *databuf, int offset, 
void *val, socklen t vallen); 





返回 : databuf 中 新 的 偏 移 





inet6_opt_next 处 理 某 个 缓冲 区 中 的 下 一 个 选项 。 参 数 extbuf 
extlen 用 于 指定 该 缓冲 区 。 与 inet6_opt_append 类 似 ，offset 参 数 是 指 问 
该 缓冲 区 的 游 动 偏 移 量 。 首 次 调用 本 疯 数 时 应 该 指定 其 值 为 0%， 以 后 就 
使 用 前 一 个 调用 的 返回 值 。typep、lenp 和 databufp 这 三 个 参数 分 别 用 于 
返回 当前 游 动 选项 的 类 型 、 长 度 和 值 。 如 果 所 指定 缓冲 区 不 符合 选项 扩 
展 首 部 格式 或 者 已 经 到 达 访 缓冲 区 的 末尾 ， 该 水 数 束 返回 -1。 
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inet6_opt_find@ 类 似 上 一 个 函数 ， 不 过 它 让 调用 者 指定 待 搜索 的 
选项 类 型 (type 参 数 ) ， 以 取代 总 是 返回 下 一 个 选项 。 


inet6_opt_get_val 用 于 从 由 databuf 参 数 指定 的 某 个 选项 值 中 抽取 
数据 ， 而 这 个 参数 是 由 inet6_opt_next 或 inet6_opt_find 返 回 的 指针 。 
与 ijnet6_opt_set_val 一 样 ，offset 参 数 必 须 由 调用 者 为 每 个 选项 初始 化 
为 0， 以 后 使 用 前 一 个 inet6_opt_get_val 调 用 的 返回 值 。 


27.6 ”IPVv6 跤 由 首部 


IPv6 路 由 首部 用 于 IPv6 的 源 路 由 。 该 首部 的 前 两 个 字 节 和 图 27-7 所 
示 的 一 样 ， 先 后 分 别 是 下 一 个 首部 (next header) 字段 和 首部 扩展 长 度 
(header extension length) 字段 。 下 两 个 字 节 分 别 指定 路 由 类 型 
(routing type) 和 剩余 网 段 (segments left) 数目 〈 也 就 是 所 列 节点 中 
还 有 多 少 个 需要 拜访 ) 。 已 经 定义 的 路 由 首部 只 有 一 个 类 型 ， 它 的 路 由 
类 型 字段 为 0， 格 式 如 图 27-11 所 示 。 
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U 7 8 1516 23 24 3] 


首部 扩展 长 度 路 由 类 型 =0 


3i tl 1 


地 址 2 





图 27-11 IPv6 路 由 首部 








路 由 首部 中 可 以 出 现 的 地 址 数目 仅仅 受 限 于 分 组 允许 长 度 等 外 在 因 
素 ， 而 剩余 分 节 这 个 字段 的 取 值 必须 小 于 等 于 所 列 的 地 址 数目 。REFC 
2460 [Deering and Hinden 1998] 说 明了 一 个 具有 路 由 首部 的 分 组 在 游 
历 到 最 终 目的 地 的 过 程 中 各 个 途经 节点 如 何 处 理 该 路 由 首部 的 具体 细 
节 ， 并 给 出 了 详尽 的 例子 。 
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路 由 首部 通常 作为 辅助 数据 经 调用 sendmsg 指 定 ， 并 由 recvmsg 调 用 
作为 辅助 数据 返回 。 应 用 进程 无 需 为 发 送 这 个 首部 做 任何 特别 之 事 ， 而 
只 需 在 某 个 sendmsg 调 用 中 指定 它 。 为 了 接收 路 由 首部 ， 应 用 进程 必须 
开局 IPV6_RECVRTHDR 套 接 字 选项 ， 如 以 下 代码 所 示 。 


const int on = 1; 








setsockopt(sockfd, IPPROTO IPV6, IPV6 RECVRTHDR, &on, sizeof(on)); 


图 27-12 给 出 了 用 于 发 送 和 接收 路 由 首部 的 辅助 数据 对 象 的 格式 。 
相关 API 为 创建 和 处 理 路 由 首部 定义 了 6 个 函数 。 以 下 3 个 函数 用 于 构造 
待 发 送 的 路 由 首部 。 

cmsghdr{} 


路 由 下 部 












IPPROTO IPV6 
IPV6 RTHDR 


























图 27-12 ”IPVv6 路 由 首部 的 辅助 数据 对 象 








include «netinet/in.h» 


socklen_t inet6 rth space(int type, int segments); 





返回 : 若 成 功 则 为 正 的 字 节 数 ， 若 出 错 则 为 9 





void *inet6 rth init(void *rthbuf, socklen t rthlen, 
int type, int segments); 








返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 
int inet6 rth add(void *rthbuf, const struct in6 addr *addr); 


返回 : 若 成 功 则 为 9， 若 出 错 则 为 -1 





inet6_rth_space 返 回 容 纳 一 个 类 型 由 type 参数 《〈 其 值 通 秆 


ZJIPV6 RTHDR TYPE 0) 指定 且 网 段 总 数 为 segments 参 数值 的 路 由 首部 所 
需 的 字 节 数 。 


inet6_rth_init 初 始 化 由 rthbuf 指 同 的 缓冲 区 ， 以 容纳 一 个 类 型 


为 type 值 且 网 段 总 数 为 segments 值 的 路 由 剃 部。 返回 值 是 指 癌 该 缓冲 区 
的 一 个 指针 ， 不 过 告发 生 错 误 ( 例 如 所 提供 的 缓冲 区 不 够 大 〉 则 为 空 指 


Fe 


FÉ. 


不 是 空 指针 的 返回 值 用 作 下 一 个 函数 的 一 个 参数 。 


inet6_rth_add 把 由 addr 指 向 的 I[Pv6 地 址 加 到 构建 中 的 路 由 首部 的 末 
调用 成 功 时 该 路 由 首部 的 剩余 网 段 成 员 会 被 更 新 为 新 的 地 址 数目 。 
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以 下 3 个 函数 用 于 处 理 所 接 收 的 路 由 首部 。 


include «netinet/in.h» 


int inet6 rth reverse(const void *in, void *out); 


B 
E 








Bl: fxpe. Jn 
为 -1 


int inet6 rth segments(const void *rthbuf); 












































返回 : 若 成 功 则 为 路 由 首部 中 的 网 段 数目 ， 若 出 错 则 








为 -1 
struct in6 addr *inet6 rth getaddr(const void *rthbuf, int index); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 





为 NULL 


inet6_rth_reverse 根 据 由 六 参数 所 指 缓冲 区 中 存放 的 某 个 接收 路 由 
首部 创建 一 个 新 的 路 由 首部 ， 存 放 在 由 out 参 数 所 指 的 缓冲 区 中 ， 以 便 
接收 进程 沿 逆转 的 路 径 发 送 回 数据 报 。 路 径 的 逆转 可 以 当场 发 生 ， 也 就 
是 说 ， 训 和 out 这 两 个 指针 可 以 指向 同一 个 缓冲 区 。 


inet6_rth_segments 人 返回 由 rthbuf 所 指 路 由 首部 中 的 网 段 数目 。 调 用 
成 功 时 返回 值 应 该 大 于 0。 


inet6_rth_getaddr 用 于 返回 由 rthbuf 所 指 路 由 首部 中 索引 号 为 index 
的 那个 IPv6 地 址 ， 返 回 值 是 指向 该 地 址 所 在 位 置 的 一 个 指针 。index 的 值 
必须 在 以 0 和 inet6_rth_segments 的 返回 值 减 去 1 为 界限 的 闭 区 间 内 。 


为 了 展示 IPv6 路 由 首部 的 用 法 ， 我 们 编写 一 对 UDP 客户 程序 和 服务 
器 程序 。 该 客户 程序 如 图 27-13 所 示 ， 它 束 像 图 27-6 所 示 的 IPv4 TCP P" 
程序 那样 从 命令 行 接受 一 个 源 路 径 。 该 服务 器 显示 所 收取 IPv6 数 据 报 的 
接收 源 路 径 ， 再 把 该 数据 报 沿 接收 源 路 径 的 逆转 发 送 回 客户 。 














ipopis/edpclil.c 





1 Hiuclude 'unp.i* 

2 inr 

3 main(int argc, char **arqv) 

a{ 

5 int. cr sockfd, len = 9; 

6 u_char *ptr = NULL; 

7 void *rth; 

8 struct addrinfe *ai; 

a if (erue < 2) 

10 err quit('usage: udpcligl1 | «hostnama- ... ] <hostname>") ; 

11 if (amec > 2) ( 

12 int i; 

13 len z Tner& rrh spa-ce(TFV&5 RTHNR T7YP* D, argoc-2): 

14 rtr = Malloc(ler,; 

15 Inst$ rta init(ptr. len, IPV6 RTHDR TYPE 0, arac 2!; 

16 for (2-1; i« arg--1; i++) [ 

17 ai - Host serv(argv[1], NULL, AF ZNETe, 3); 

15 inet» rth_addiptr, 

19 &((struct sockaddrz ir6 "lai-»ai acdrl--sin6 addr); 
20 ) 

21 ) 

22 ai = Host serv(argv|arqo 1,, SEXV_PORT STR, AF -NET6, SOCK_DGRAM) ; 
23 sockfd = Sccketíai-»ai fanily, ai-»ai socktvpe, ai-»ai pcotoccl); 
24 if (ptr! [ 

25 setscckopt(sockfd, IPEROTC IPVE. IPVao KTHDR, ptr. len); 

26 tree (p^r! ; 

27 J 

25 dg cli (stdin, soackfd, ai-saij addr, aji-aji Atir her ); 58 Ao it all #1 
29 exizi0); 

30 ] 


ipopis/udpcli01.c 


图 27-13 ”指定 一 个 源 路 径 的 IPv6 UDP 客户 程序 
创建 源 路 径 


11-21 如 果 所 提供 的 主机 名 参数 不 止 一 个 ， 那 么 源 路 径 由 除 最 后 
一 个 之 外 的 所 有 参数 构成 。 首 先 调用 :inet6_rth_space 确 定 创建 路 由 首部 
需要 多 大 空间 ， 调 用 malloc 分 配 这 个 空间 后 再 调用 inet6_rth_init 初 始 
化 所 分 配 的 缓冲 区 。 然 后 对 源 路 径 中 的 每 个 地 址 先 调 用 host_serv 把 它 
转换 成 数值 格式 ， 再 调用 inet6_rth_add 把 它 添 加 到 构建 中 的 源 路 径 。 
这 个 过 程 类 似 对 照 的 IPv4 TCP 客 户 程序 ， 差 别 是 IPv4 的 API 要 求 我 们 自 
行 编写 帮手 函数 ， 而 IPv6 的 API 由 系统 作为 库 函 数 提 供 。 


查找 目的 地 并 创建 套 接 字 
22-23 ”使 用 host_serv 查 找 目 的 主机 名 的 数值 格式 地 址 ， 并 创建 一 














TERT: 


设置 TPv6_RTHDR 并 调用 工作 者 函数 


我 们 将 在 27.7 节 看 到 ， 通 过 调用 setsockopt 设 置 TPV6_RTHDR 
套 接 字 选项 可 以 把 一 个 路 由 首部 应 用 于 从 某 个 套 接 字 发 送 的 所 有 分 组 ， 


24~27 


以 取代 为 每 个 分 组 发 送 同 样 辅助 数据 的 做 法 。 我 们 只 在 早先 分 配 过 路 由 
首部 的 前 提 下 《 即 ptr 非 空 ) 设置 该 选项 。 





者 函数 dg_cli。 


服务 器 程序 类 似 图 8-3 给 出 的 简单 程序 : 打开 一 个 UDP 套 接 字 并 调 
用 dg_echo。 其 设置 相当 简单 ， 我 们 没有 给 出 。 不 过 我 们 在 图 27-14 中 给 
出 了 所 调用 的 dg_echo 函 数 版 本 : 如 果 收 到 一 个 携带 源 路 径 的 分 组 ， 那 
束 显 示 这 个 源 路 径 ， 并 逆转 它 以 用 于 人 返 送 该 分 组 。 


最 后 调用 图 8-8 中 给 出 的 工作 





1 finclu3e *'urp.h" 

z void 

3 dg echo(inr zockfd, SA *pcliaddr, sockler t clilen) 
ad 

5 int n; 

€ cnar mecq [MAXLINE] ; 

N int on; 


char cortrol[MAXLIME]: 
struct msghdr msg: 
struct emsqhéír  *crsc, 
etruct iovec iov 1]; 


om = 1; 


SeLsockup- (sockzd, IFPROTO IPV6, IPV6 RECVRTHDR, &un, 


bzerolémsg, sizeof (msgi); 
icv[0].iov basc = recq; 
msg.masg name = p--iaddr; 
msg meg iow = iov; 
nsg.msg iovlen = 1; 
maq.maq control = control; 
for 4 $4 ) 
msg. msg narelen = clilern; 
(isa TE eoobrallen = sizeof (cont roli ; 
iov[C]l.icv -en = MAXLIND, 
n= Recvrseqiseckid, ames, 0); 
for (ems = CMSG PIRSTHDR (urs); cms t= NULL: 
(nw om COMAG WXTHTR (nsg, cus) ! [ 
if (cnsa--cmsg level -- IPPROTOLIPWG &5 
cmeg >omaq type == IPV6 RTHDPR! | 
inets Brcrc print (css L-ATA(cmeg)!; 


ipepisidgechoprintraute.c 


sizeof (um) }; 


Tnet§_rtn_revevse (OWSS_TATA(cmsg) . CMSG_NATA(cmsg) : ; 


] 
) 
iov[0).ic2v len = n: 
Serdmsc(sockfd, msg, 0); 


ipopis/dgechoprintkoute.c 


图 27-14 ”显示 并 逆转 IPv6 源 路 径 的 dg_echo 函 数 


开启 IPV6_RECVRTHDR 并 设置 msghdr 结 构 


12-19 ”我 们 必须 开启 TPv6_RECVRTHDR 套 接 字 选 项 才能 接收 外 来 源 路 
径 。 我 们 还 设置 用 于 接收 外 来 源 路 径 的 msghdr 结 构 的 恒定 字段 。 


设置 msghdr 结 构 可 变 字段 并 调用 recvmsg 


21-24 对 于 msghdr 结 构 中 会 被 recvmsg 调 用 改 抒 的 若干 个 长 度 字 
段 ， 我 们 在 每 次 调用 该 函数 前 重新 设置 它们 。 


寻找 并 处 理 路 由 首部 


25-32 ”使 用 宏 cMSG_FIRSTHDR 和 cMsG_NXTHDR 遍 历 辅助 数据 以 寻找 路 
由 首部 。 虽 然 我 们 只 需要 一 份 辅助 数据 ， 但 如 此 遍历 仍 不 失 为 一 种 好 做 
法 。 如 果 找 到 一 个 ， 那 就 调用 我 们 的 ijnet6_srcrt_print 函 数 ( 图 27- 
15) 显示 其 中 的 源 路 径 ， 然 后 使 用 inet6_rth_reverse 逆 转 该 路 径 ， 以 便 
沿 同样 的 路 径 返 送 所 接收 的 分 组 。 本 例子 中 inet6_rth_reverse 当 场 逆转 
路 径 ， 因 此 我 们 可 以 使 用 同一 个 msghdr 结 构 返 送 所 接收 的 分 组 。 


- ipopts/*ourcerowutet.c 





1 Wow: Lande "unp.h* 


2 void 
3 incts_orert_prirt (void *pzr! 


5 int i, segments; 

6 char Str INET6 ADDRETRLEN]; 

7 segments = Ine-6 r-h sezments (per) i 

A pè int C(* received sinit coules "); 

g for (i = 0; 1 < segments; 24-4) 

1C zrinzf(*"$s ', Inet ntcp(A2? INDT6, InmetS_rth_getadar(ptr, i). 
11 str, s-zecfís-r))!; 

l2 princt(*\n") ; 


itopts/sourcerouteti.c 


图 27-15 ”显示 一 个 IPv6 接 收 源 路 径 的 inet6_srcrt_print 函 数 
射 分 组 
33-34 设置 好 所 回 射 数 据 的 长 度 ， 然 后 调用 sendmsg 返 送 所 接收 的 


分 组 。 


Iz] 


728—730 


我 们 的 inet6_srcrt_print 国 数 因为 使 用 IPv6 路 由 首部 帮手 函数 而 显 
得 相当 简单 。 


确定 源 路 径 中 的 网 段 数 
7 调用 inet6_rth_segments 确 定 源 路 径 中 存在 的 网 段 数 。 
W Jy BS PY BB 


o-11 WANE, XT ETIN BE Hinete rth getaddr3X BUR. 
地 址 ， 再 使 用 inet_ntop 把 该 地 址 由 数值 格式 转换 成 表达 格式 。 


处 理 IPv6 源 路 径 的 客户 和 服务 器 程序 无 需 了 解 源 路 径 在 分 组 中 是 如 
何 格式 化 的 。API 提 供 的 库 函 数 隐 藏 了 分 组 格式 的 细节 ， 但 为 我 们 提供 
了 从 IPv4 中 的 高 速 暂 存 器 构造 选项 时 所 提供 的 全 部 灵活 性 。 


27.7 TIPv6 粘 附 选 项 


我 们 已 经 讲解 了 作为 辅助 数据 使 用 sendmsg 和 recvmsg 发 送 和 接收 的 
7 种 辅助 数据 对 象 。 





(1) IPv6 分 组 信息 : in6_pktinfo 结 构 或 者 包含 目的 地 址 和 外 出 接口 
索引 ， 或 者 包含 源 地 址 和 到 达 接 口 索 引 《〈 图 22-21) 。 


(2) 外 出 跳 限 或 接收 跳 限 “图 22-21) 。 

(3) 下 一 跳 地 址 〈 图 22-21) 。 只 能 发 送 不 能 接收 。 
(4) 外 出 流通 类 别 或 接收 流通 类 别 〈 图 22-21) 。 
(5) 步 跳 选项 〈 图 27-10) 。 

(6) 目的 地 选项 〈 图 27-10) 。 

(7) 路 由 首部 《图 27-12) 。 
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我 们 在 图 14-11 中 与 其 他 辅助 数据 对 象 一 道 汇 总 了 这 些 对 象 的 
cmsg_level 值 和 cmsg_type 值 。 








如 果 这 些 辅 助 数据 对 象 各 上 自 有 单个 值 将 应 用 于 从 某 个 套 接 字 发 送 的 
所 有 分 组 ， 那 么 我 们 不 必 每 次 调用 sendmsg 时 都 发 送 它 们 ， 而 是 代 之 以 
设置 相应 的 套 接 字 选项 。 这 些 套 接 字 选项 所 用 党 值 与 辅助 数据 对 象 一 
人 致 ， 也 就 是 说 调用 setsockopt 的 级 别 参 数 总 是 IPPROTO0_IPV6， 选 项 名 参 
数 可 以 
AÉIPV6 PKTINFO, IPV6 HOPLIMIT. IPV6 NEXTHOP. IPV6 TCLASS. IPV6 HC 
或 IPV6_RTHDR。 然 而 对 于 UDP 套 接 字 和 原始 IPv6 套 接 字 ， 我 们 可 以 通过 
在 sendmsg 调 用 中 指定 相应 辅助 数据 对 象 这 一 手段 ， 针 对 每 个 分 组 履 写 
这 些 粘 附 性 选项 。 如 果 sendmsg 调 用 中 指定 了 某 个 辅助 数据 对 象 ， 相 应 
粘 附 性 选项 就 不 随 所 发 送 的 数据 报 发 送 。 





粘 附 性 选项 的 概念 同样 适用 于 TCP， 因 为 在 TCP 套 接 字 上 绝 不 能 使 
用 sendmsg 或 recvmsg 发 送 或 接收 辅助 数据 。TCP 应 用 进程 可 以 通过 设置 
相应 的 套 接 字 选项 以 指定 上 述 7 种 辅助 数据 对 象 之 任意 组 合 。 这 些 对 象 
随后 影响 在 相应 套 接 字 上 发 送 的 所 有 分 组 。 然 而 如 果 茶 个 分 组 需要 重 
传 ， 且 发 送 原初 分 组 和 重 传 分 组 时 粘 附 性 选项 的 设置 发 生变 更 ， 那 么 设 
置 在 重 传 分 组 上 的 粘 附 性 选项 既 可 能 是 原初 的 ， 也 可 能 是 新 的 。 


希望 在 某 个 套 接 字 上 调用 recvmsg 接 收 这 些 辅助 数据 对 象 的 应 用 进 
程 必须 预先 在 该 套 接 字 上 开启 相应 的 套 接 字 选 
JiIPV6 RECVPKTINFO. IPV6 RECVHOPLIMIT. IPV6 RECVTCLASS. IPV6 RECV 
或 ITPV6_RECVRTHDR。TCP 应 用 进程 也 可 以 如 此 获取 这 些 辅助 数据 对 象 ， 
不 过 既然 在 TCP 套 接 字 上 不 能 使 用 recvmsg 与 用 户 数据 一 道 接 收 辅助 数 
据 ， 由 recvmsg 返 回 的 这 些 粘 附 性 选项 实际 上 来 自 最 近 收 取 的 分 节 所 在 
的 IPv6 分 组 。 这 些 选项 应 该 是 面向 整个 TCP 连 接 的 ， 也 就 是 说 所 有 外 来 
段 所 在 的 IPv6 分 组 具有 相同 的 选项 。 鱼 














27.8 ”历史 性 IPv6 高 级 API 


RFC 2292 [Stevens and Thomas 1998] 定义 了 本 章 讲 解 的 IPv6 高 级 
API 的 一 个 早期 版 本 。 在 这 个 早期 版 本 中 ， 用 于 处 理 步 跳 和 目的 地 选项 
的 函数 
是 inet6_option_space、 inet6 option init. inet6 option append. ine 
和 inet6_option_find。 若 所 有 选项 都 包含 在 辅助 数据 中 ， 这 些 函 数 会 直 
接 处 理 cmsghdr 结 构 中 的 对 象 。 用 于 处 理 路 由 首部 的 函数 
是 inet6_rthdr_space、 inet6 rthdr init. inet6 rthdr add. inet6 rth 


和 inet6_rthdr_getflags。 它 们 都 直接 操作 cmsghdr 结 构 中 的 辅助 数据 对 
象 。 


在 这 个 API 中 ， 粘 附 性 选项 使 用 IPv6_PKToPTIONS 单 个 套 接 字 选项 设 
置 或 获取 。 原 本 传递 给 sendmsg 或 由 recvmsg 返 回 的 辅助 数据 对 象 也 可 以 
作为 IPv6_PKTOPTIONS 套 接 字 选项 的 数据 部 分 。 男 外 ， 套 接 字 选 
项 IPV6_DSTOPTS、IPV6_HOPOPTS 和 IPV6_RTHDR 是 标志 值 ， 用 于 请 求 经 由 


辅助 数据 接收 相应 的 IPv6 扩 展 首 部 。 


以 上 操作 的 详细 信息 参见 RFC 2292 [ Stevens and Thomas 1998] 第 4 
节 到 第 8 节 。 
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279 ”小 结 


在 10 个 已 定义 的 IPv4 选 项 中 最 常用 的 是 源 路 径 选 项 ， 不 过 出 于 安全 
考虑 ， 它 的 使 用 正在 日 益 萎缩 。IPv4 首 部 中 选项 的 访问 通过 IP_0PTIONS 
套 接 字 选 项 完成 。 


IPv6 定 义 了 6 个 扩展 首部 ， 不 过 对 它们 的 支持 至 今 依 然 鲜 见 。IPv6 
扩展 首部 的 访问 通过 函数 接口 完成 ， 因 而 无 需 了 解 它 们 出 现在 分 组 中 的 
真实 格式 。 这 些 扩展 首部 作为 辅助 数据 经 调用 sendmsg 发 送 ， 又 作为 辅 
助 数 据 由 recvmsg 调 用 返回 。 





习题 


27.1 在 27.3 节 末尾 的 IPv4 源 路 径 例子 中 ， 如 果 我 们 指定 -6 选项 而 
不 是 -g 选 项 ， 将 有 什么 变化 ? 


27.2 ”调用 setsockopt 设 置 IP_oPTIONS 套 接 字 选项 时 所 指定 的 缓冲 
区 长 度 必 须 是 4 字 节 的 倍数 。 如 果 我 们 没有 像 图 27-1 所 示 的 那样 在 缓冲 
区 开始 处 安置 一 个 NOP， 那 么 该 怎么 办 ? 


27.3 ” 当 使 用 IP 记 录 路 径 (Record Route) 选项 时 (在 TCPv1 的 7.3 
节 讲 解 ) ，ping 程 序 如 何 接收 源 路 径 ? 


27.4 在 27.3 节 末尾 给 出 的 出 自 rlogind 服 务 器 程序 用 于 清除 接收 源 
为 什么 getsockopt 和 setsockopt 的 套 接 字 描述 符 参 
2730? 


27.5 ”27.3 节 末尾 给 出 的 用 于 清除 接收 源 路 径 的 代码 曾经 有 很 多 年 
大 体 如 下 : 


optsize = 0; 
setsockopt(0, IPPROTO IP, IP OPTIONS, NULL, &optsize); 








这 上 段 代码 有 什么 差错 ? 是 否 要 紧 ? 
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QD 许多 源 自 Berkeley 的 内 核 在 为 原始 IP 套 接 字 调用 getsockopt 和 
setsockoptht ZÆ whic 〈panic， 即 系统 停机 ) 。 普 通用 户 无 法 使 用 该 手 
段 攻击 系统 ， 因 为 创建 原始 也 套 接 字 要 求 具 备 超 级 用 户 权 限 ， 而 超级 用 
户 权 限 的 拥有 者 本 来 就 可 以 对 系统 进行 更 为 恶意 的 活动 。 


@) 注 意 区 分 源 路 径 〈source route) 和 源 路 由 (source ”routing 或 source 
routed) 两 词 。 源 路 由 指 的 是 给 一 个 下 数据 报 添置 一 个 SSR 选 项 的 行为 
(source routing) ， 或 者 是 一 个 IP 数 据 报 拥有 一 个 SSR 选 项 的 状态 


(source routed) . 译 者 注 








(3)offset 参 数 指定 开始 搜索 位 置 的 偏 移 量 。 如 果 找 到 指定 类 型 的 选项 ， 
那 就 在 参数 lenp 和 databufp 中 返回 该 选项 的 长 度 和 值 ， 并 以 下 一 个 选项 
(可 能 是 选项 扩展 首部 的 末尾 ) 的 偏 移 量 作为 函数 的 返回 值 。 


这 段 文字 由 译 者 整理 。 第 2 版 使 用 的 是 现 已 被 淘汰 的 

API (ITPV6_PKTOPTIONS 套 接 字 选项 ) ， 第 3 版 新 作者 又 没有 理解 Stevens 
区 分 了 获取 Cretrieving) 和 接收 (receiving) 两 词 的 含义 ， 所 语 与 
Stevens 先 生 大 相 径 庭 。 第 3 版 原文 仅 一 名 “There is no way to retrieve 
options received via TCP since there is no relationship between received 
packets and user receive operations". PEATE 








第 28 章 ”原始 套 接 字 


28.1 概述 


力 。 


原始 套 接 字 提供 普通 的 TCP 和 UDP 套 接 字 所 不 提供 的 以 下 3 个 能 





有 了 原始 套 接 字 ， 进 程 可 以 读 与 写 ICMPv4、IGMPv4 和 ICMPv6 等 
分 组 。 举 例 来 说 ，ping 程 序 就 使 用 原始 套 接 字 发 送 ICMP 回 射 请 求 
并 接收 ICMP 回 射 应 答 。 “我 们 将 在 28.5 节 上 自行 开发 ping 程 序 的 一 个 
版 本 。) 多 播 路 由 守护 程序 mrouted 也 使 用 原始 套 接 字 发 送 和 接收 
IGMPv4 分 组 。 

这 个 能 力 还 使 得 使 用 ICMP 或 IGMP 构 筑 的 应 用 程序 能 够 完全 作为 用 
户 进程 处 理 ， 而 不 必 往 内 核 中 额外 这 加 编码 。 举 例 来 说 ， 路 由 器 发 
现 守 护 程序 〈 在 Solaris 2.x 上 名 为 in,rdisc，TCPv1 附 录 上 讲解 如 何 
获取 它 的 一 个 公开 可 得 版 本 的 源 代 码 ) 就 是 如 此 构筑 的 。 该 程序 处 
0 00 


有 了 原始 套 接 字 ， 进 程 可 以 读 写 内 核 不 处 理 其 协议 字段 的 IPv4 数 据 
报 。 回 顾 图 A-1 所 示 的 8 位 IPv4 协 议 字 段 。 大 多 数 内 核 仅仅 处 理 该 字 
段 值 为 1 (ICMP) 、2 (IGMP) 、6 (TCP) 和 17 (UDP) 的 数据 
报 。 然 而 为 协议 字段 定义 的 值 还 有 不 少 : IANA 的 “Protocol 
Numbers” 注 册 人 处 列 出 了 所 有 取 值 。 举 例 来 说 ，OSPF 路 由 协议 既 不 
使 用 TCP 也 不 使 用 UDP， 而 是 通过 收发 协议 字段 为 89 的 卫 数 据 报 而 
直接 使 用 IP。 实 现 OSPF 的 gated 守 护 程 序 必须 使 用 原始 套 接 字 读 与 
写 这 些 IP 数 据 报 ， 因 为 内 核 不 知道 如 何 处 理 协 议 字 段 值 为 89 的 IPv4 
数据 报 。 这 个 能 力 还 延续 到 IPv6。 
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有 了 原始 套 接 字 ， 进 程 还 可 以 使 用 IP_HDRINCL 套 接 字 选项 自行 构造 
IPv4 首 部 。 这 个 能 力 可 用 于 构造 譬如 说 TCP 或 UDP 分 组 ， 我 们 将 在 
29.7 节 给 出 这 样 的 一 个 例子 。 


本 章 介绍 了 原始 套 接 字 的 创建 、 输 入 和 输出 。 我 们 还 将 开发 在 IPv4 
和 IPv6 环 境 下 均 可 使 用 的 ping 和 traceroute 程 序 。 


28.2 ”原始 套 接 字 创 建 


创建 一 个 原始 套 接 字 涉及 如 下 步 又 。 


CRM dea a RAW 并 调用 socket 函 数 ， 以 创建 一 个 原 
始 套 接 字 。 第 三 个 参数 〈 协 议 ) 通常 不 为 0。 举 例 来 说 ， 我 们 使 用 如 下 
代码 创建 一 个 下 v4 原 始 套 接 字 ， 


int Sockfd 





sockfd = socket(AF INET, SOCK RAW, protocol); 
其 中 protocol 参 数 是 形 如 IPPRoTO_xxx 的 某 个 常 值 ， 定 义 
在 <netinet/in.h> 头 文件 中 ， 如 IPPROTO_TGMP。 包 


只 有 超级 用 户 才能 创建 原始 套 接 字 ， 这 人 么 做 可 防止 普通 用 户 往 网 络 
写 出 它们 目 行 构造 的 也 数据 报 。 


ME 可 以 在 这 个 原始 套 接 字 上 按 以 下 方式 开局 IP_HDRINCL 套 接 字 选 
E 





const int on - 1; 





if (setsockopt(sockfd, IPPROTO IP, IP HDRINCL, &on, sizeof(on)) « 0) 
出 错 处 理 

















我 们 将 在 下 一 市 讲解 本 套 接 字 选 项 的 效用 。 


(3) “可 以 在 这 个 原始 套 接 字 上 调用 bind 函 数 ， 不 过 比较 少见 。bind 
函数 仅仅 设置 本 地 地 址 ， 因 为 原始 套 接 字 不 存在 端口 号 的 概念 。 就 输出 
而 言 ， 调 用 bind 设 置 的 是 将 用 于 从 这 个 原始 套 接 字 发 送 的 所 有 数据 报 的 
源 IP 地 址 (只 在 IP_HDRINCL 套 接 字 选 项 未 开启 的 前 提 下 〉 。 如 果 不 调 
用 bind， 内 核 就 把 源 IP 地 址 设置 为 外 出 接口 的 主 IP 地 址 。 


(4) 可 以 在 这 个 原始 套 接 字 上 调用 connect 函 数 ， 不 过 也 比较 少 
见 。connect 函 数 仅 仅 设 置 外 地 地 址 ， 同 样 因为 原始 套 接 字 不 存在 端口 
号 的 概念 。 就 输出 而 言 ， 调 用 connect 之 后 我 们 可 以 把 sendto 调 用 改 











为 write 或 send 调 用 ， 因 为 目的 卫 地 址 已 经 指定 了 。 
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28.3 ”原始 套 接 字 输 出 


原始 套 接 字 的 输出 芝 循 以 下 规则 。 


e 普通 输出 通过 调用 sendto 或 sendmsg 并 指定 目的 IP 地 址 完成 。 如 果 套 
接 字 已 经 连接 ， 那 么 也 可 以 调用 write、writev 或 send。 

e 如 果 IP_HDRINCL 套 接 字 选项 未 开启， 那么 由 进程 让 内 核发 送 的 数据 
的 起 始 地 址 指 的 是 IP 首 部 之 后 的 第 一 个 字 节 ， 因 为 内 核 将 构造 IP 首 
部 并 把 它 置 于 来 自 进 程 的 数据 之 前 。 内 核 把 所 构造 IPv4 首 部 的 协议 
字段 设置 成 来 自 socket 调 用 的 第 三 个 参数 。 

如 果 IP_HDRINCL 套 接 字 选项 已 开启， 那么 由 进程 让 内 核发 送 的 数据 
的 起 始 地 址 指 的 是 下 首部 的 第 一 个 字 节 。 进 程 调 用 输出 函数 写 出 的 
数据 量 必须 包括 IP 首 部 的 大 小 。 整 个 IP 首 部 由 进程 构造 ， 不 过 
(a) IPV4 标 识字 段 可 置 为 0， 从 而 告知 内 核 设置 该 值 ，(b) IPv4 
i. 


内 核 会 对 超出 外 出 接口 MTU 的 原始 分 组 执行 分 片 。 


原始 套 接 字 在 文档 中 被 摘 述 为 如 果 它 处 于 内 核 中 ， 那 么 就 为 协议 所 
拥有 的 原始 套 接 字 提供 同样 的 接口 。[McKusick et al.1996] 不 幸 的 是 ， 这 
表示 某 些 API 是 依赖 于 操作 系统 内 核 的 ， 尤 其 是 和 IP 首 部 字段 的 字 节 序 
有 关 。 在 许多 源 自 Berkeley 的 内 核 上 ， 除 了 ip_len 和 ip_off 采 用 主机 字 
节 序 外 ， 其 他 字段 都 采用 网 络 字 节 序 (TCPv2 第 233 页 和 第 1057 页 〉。 
然而 在 Linux 和 OpenBSD 上， 所 有 字段 都 采用 网 络 字 节 序 。 


IP_HDRINCL 套 接 字 选 项 随 4.3BSD Reno 引 入。 在 此 之 前 ， 应 用 进程 
为 通过 某 个 原始 套 接 字 发 送 的 分 组 自行 指定 了 首部 的 唯一 手段 是 应 用 由 
Van Jacobson 为 支持 traceroute 而 于 1988 年 给 出 的 一 个 内 核 补 丁 。 座 补 
丁 要 求 应 用 进程 指定 协议 参数 为 IPPROTO_RAW 调 用 socket 创 建 一 个 原始 IP 
套 接 字 。IPPROTO_RAW 的 值 为 255， 它 是 一 个 保留 值 ， 从 不 允许 作为 IP 首 
部 中 的 协议 字段 出 现 。 


在 原始 套 接 字 上 执行 输入 和 输出 的 函数 属于 内 核 中 最 简单 的 一 些 孔 
数 。 举 例 来 说 ， 在 TCPv2 中 ， 原 始 套 接 字 上 的 输入 和 输出 函数 各 上 自 约 需 











40 行 C 代 码 (第 1054~1057 页 ) ， 而 TCP 输 入 函数 约 需 2000 行 ，TCP 输 出 
函数 约 需 700 行 。 


我 们 就 TP_HDRINCL 套 接 字 选项 的 讲解 针对 的 是 4.4BSD。 更 早 的 版 本 
(例如 Net/2) 在 开启 该 选项 之 后 会 由 内 核 在 卫 首 部 中 填写 更 多 的 字段 。 


对 于 IPv4， 计 算 并 设置 IPv4 首 部 之 后 所 含 的 任何 首部 校 验 和 是 用 户 
进程 的 贡 任 。 举 例 来 说 ， 在 我 们 的 ping 程 序 中 《图 28-14) ， 我 们 必须 
在 调用 sendto 之 前 计算 ICMPv4 校 验 和 并 将 它 存 入 ICMPv4 首 部 。 
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28.3.1 IPv6 的 差异 


IPv6 原 始 套 接 字 与 IPv4 相 比 存 在 如 下 差异 (RFC 3542 [Stevens et 
al. 2003] ) 。 


° p m 4 始 套 接 字 发 送 和 接收 的 协议 首部 中 的 所 有 字段 均 采 用 网 
络 字 节 序 

IPv6 不 存在 与 IPv4 的 IP_HDRINCL 套 接 字 选 项 类 似 的 东西 。 通 过 IPv6 
原始 套 接 字 无 法 读 入 或 写 出 完整 的 IPv6 分 组 (包括 IPv6 首 部 和 任何 
扩展 首部 ) 。IPv6 首 部 的 几乎 所 有 字段 以 及 所 有 扩展 首部 都 可 以 通 
过 套 接 字 选项 或 辅助 数据 由 应 用 进程 指定 或 获取 【〈 见 习题 28.1) 。 
如 果 应 用 进程 需要 读 入 或 写 出 完整 的 IPv6 数 据 报 ， 那 就 必须 使 用 数 
据 链 路 访问 (第 29 章 ) 。 

° IPv6 原 始 套 接 字 的 校 验 和 处 理 存在 差异 ， 我 们 马上 就 讲解 。 


28.3.» IPV6 CHECKSUM 套 接 字 选项 


对 于 ICMPv6 原 始 套 接 字 ， 内 核 总 是 计算 并 存储 ICMPv6 首 部 中 的 校 
验 和 。 这 一 点 不 同 于 ICMPv4 原 始 套 接 字 ， 也 了 吏 是 说 ICMPv4 首 部 中 的 校 
验 和 必须 由 应 用 进程 自行 计算 并 存储 (比较 图 28-14 和 图 28-16) 。 尽 管 
ICMPVv4 和 ICMPv6 都 要 求 发 送 者 计算 校 验 和 ，ICMPv6 却 在 其 校 验 和 中 
包括 一 个 伪 首 部 Cpseudoheader) (我 们 将 在 图 29-14 中 计算 UDP 校 验 和 
时 讨论 伪 痛 部 的 概念 〉。 该 伪 首 部 中 的 字段 之 一 是 源 IPv6 地 址 ， 而 应 用 

进程 通 常 让 内 核 选 择 其 值 。 与 其 让 应 用 进程 就 为 了 计算 校 验 和 而 不 得 不 








试图 自行 选择 这 个 地 址 ， 还 不 如 由 内 核 计 算 校 验 和 来 得 更 为 容易 。 


对 于 其 他 IPv6 原 始 套 接 字 〈 不 是 以 ITPPRoTO_ICMPV6 为 第 三 个 参数 调 
用 socket 创 建 的 那些 原始 套 接 字 ) ， 进 程 可 以 使 用 一 个 套 接 字 选 项 告知 
内 核 是 否 计算 并 存储 外 出 分 组 中 的 校 验 和 ， 且 验证 接收 分 组 中 的 校 验 
和 。 该 选项 默认 情况 下 是 禁止 的 ， 不 过 把 它 的 值 设置 为 某 个 非 负 值 就 可 
以 开启 该 选项 ， 例 如 如 下 代码 : 


int offset = 2; 


if iR IPPROTO IPV6, IPV6 CHECKSUM, 
ffset, sizeof(offset)) « 0) 
出 错 处 理 








Re naris 而 且 告知 内 核 这 个 16 位 
的 校 验 和 字段 的 字 市 偏 移 量 : 本 例 中 为 目 应 用 数据 开始 处 起 侦 移 2 个 字 
市 禁止 该 选项 要 求 把 这 个 偏 移 量 设置 为 1。 一 旦 开启， 内核 将 为 在 指 
定 套 接 字 上 发 送 的 外 出 分 组 计算 并 存储 校 验 和 ， 并 且 为 在 该 套 接 字 接 收 
的 外 来 分 组 验证 校 验 和 。 
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28.4 原始 套 接 字 输入 


就 原始 套 接 字 的 输入 我 们 必须 首先 回答 的 问题 是 ， 内 核 把 哪些 接收 
到 的 IP 数 据 报 传递 到 原始 套 接 字 ?这 儿 遵 循 如 下 规则 。 


e 接收 到 的 UDP 分 组 和 TCP 分 组 绝 不 传递 到 任何 原始 套 接 字 。 如 果 一 
个 进程 想 要 读 取 含有 UDP 分 组 或 TCP 分 组 的 了 数据 报 ， 它 就 必须 在 
数据 链 路 层 读 取 这 些 分 组 (第 29 章 ) 。 

大 多 数 ICMP 分 组 在 内 核 处 理 完 其 中 的 ICMP 消 息 后 传递 到 原始 套 接 
字 。 源 自 Berkeley 的 实现 把 不 是 回 射 请 求 、 时 间 惟 请 求 或 地 址 掩 码 
请 求 〈 这 三 类 ICMP 消 息 全 由 内 核 处 理 ) 的 所 有 接收 到 的 ICMP 分 组 
传递 给 原始 套 接 字 (TCPv2 第 302~303 页 ) 。 

所 有 IGMP 分 组 在 内 核 完成 处 理 其 中 的 IGMP 消 息 后 传递 到 原始 套 接 


字 。 
内 核 不 认识 其 协议 字段 的 所 有 IP 数 据 报 传递 到 原始 套 接 字 。 内 核对 
这 些 分 组 执行 的 唯一 处 理 是 针对 某 些 IP 首 部 字段 的 最 小 验证 ;IP 版 
本 、IPv4 痛 部 校 验 和 、 首 部 长 度 以 及 目的 IP 地 址 (TCPV2 第 213~220 
[ime 

如 果 某 个 数据 报 以 片段 形式 到 达 ， 那 么 在 它 的 所 有 片段 均 到 达 且 重 
组 出 该 数据 报 之 前 ， 不 传递 任何 片段 分 组 到 原始 套 接 字 。 


当 内 核 有 一 个 需 传 递 到 原始 套 接 字 的 JP 数据 报 时 ， 它 将 检查 所 有 进 
程 上 的 所 有 原始 套 接 字 ， 以 寻找 所 有 匹配 的 套 接 字 。 每 个 匹配 的 套 接 字 
将 被 递送 以 该 IP 数 据 报 的 一 个 副本 。 内 核对 每 个 原始 套 接 字 均 执行 如 下 
只 有 这 3 个 测试 结果 均 为 真 ， 内 核 才 把 接收 到 的 数据 报 递 送 到 
这 个 套 接 字 。 














。 如 果 创 建 这 个 原始 套 接 字 时 指定 了 非 0 的 协议 参数 (socket 的 第 三 
个 参数 ) ， 那 么 接收 到 的 数据 报 的 协议 字段 必须 匹配 该 值 ， 人 否则 该 
数据 报 不 递送 到 这 个 套 接 字 。 

。 如 宁 这 个 原始 套 接 字 已 由 pind 调 用 绑 定 了 茶 个 本 地 IP 地 址 ， 那 么 接 
收 到 的 数据 报 的 目的 下 地 址 必须 匹配 这 个 绑 定 地 址 ， 人 否则 该 数据 报 
不 递送 到 这 个 套 接 字 。 


。 如 果 这 个 原始 套 接 字 已 由 connect 调 用 指定 了 某 个 外 地 IP 地 址 ， 那 
么 接收 到 的 数据 报 的 源 IP 地 址 必须 匹配 这 个 已 连接 地 址 ， 否 则 该 数 
气 报 不 递送 到 这 个 套 接 字 。 


注意 ， 如 果 一 个 原始 套 接 字 是 以 0 值 协议 参数 创建 的 ， 而 且 既 未 对 
它 调用 过 bind， 也 未 对 它 调 用 过 connect， 那 么 该 套 接 字 将 接收 可 由 内 
核 传递 到 原始 套 接 字 的 每 个 原始 数据 报 的 一 个 副本 。 


无 论 何 时 往 一 个 原始 IPv4 套 接 字 递送 一 个 接收 到 的 数据 报 ， 传 递 到 
该 套 接 字 所 在 进程 的 都 是 包括 卫 首 部 在 内 的 完整 数据 报 。 然 而 对 于 原始 
IPv6 套 接 字 ， 传 递 到 套 接 字 的 只 是 扣除 了 IPv6 首 部 和 所 有 扩展 首部 的 净 
fat (payload) 〈 例 如 图 28-11 和 图 28-22) 。 





739 


在 传递 给 应 用 进程 的 IPv4 首 部 中 ，ip_len、ip_off 和 ip_id 采 用 主机 
字 节 序 ， 其 中 ip_len 是 扣除 I 首 部 〈 包 括 IP 选 项 字段 ) 的 净 荷 长 度 ， 其 
网 络 字 节 序 。 在 Linux 上 上 所 有 字段 均 保 持原 本 的 网 络 字 节 
FANE o 


正如 早先 所 提 ， 定 义 原 始 套 接 字 的 目的 在 于 提供 一 个 访问 某 个 协议 
的 接口 ， 就 像 该 协议 在 内 核 中 提供 了 这 个 接口 那样 ， 因 此 这 些 字段 的 内 
容 取 决 于 OS 内 核 。 


我 们 在 上 一 节 提 到 过 ， 在 原始 IPv6 套 接 字 上 收取 的 数据 报 中 所 有 字 
段 均 保 持原 本 的 网 络 字 节 序 不 变 。 


ICMPVv6 类 型 过 滤 


原始 ICMPv4 套 接 字 被 递送 以 由 内 核 接收 的 大 多 数 ICMPv4 消 息 。 然 
而 ICMPv6 在 功用 上 是 ICMPv4 的 超 集 ， 它 把 ARP 和 IGMP (2.2 节 ) 的 功 
能 也 包括 在 内 。 因 此 相 比 原始 ICMPv4 套 接 字 ， 原 始 ICMPv6 套 接 字 有 可 
能 收取 多 得 多 的 分 组 。 可 是 使 用 原始 套 接 字 的 应 用 程序 大 多 数 仅 仅 关 注 
所 有 ICMP 消 息 的 某 个 小 子 集 。 


为 了 缩减 由 内 核 通过 原始 ICMPv6 套 接 字 传递 到 应 用 进程 的 分 组 数 
量 ， 应 用 进程 可 以 自行 提供 一 个 过 滤器 。 原 始 ICMPv6 套 接 字 上 的 过 波 
器 使 用 定义 在 <netinet/icmp6.h> 头 文件 中 的 数据 类 型 struct 





icmp6_filter 声 明 ， 并 使 用 level 参 数 为 TIPPRoTO_TcMPV6 且 optname 人 参数 
为 ICMP6_FILTER 的 setsockopt 和 getsockopt 调 用 来 设置 和 获取 。 


以 下 6 个 宏 用 于 操作 icmp6_filter 结 构 。 


#include <netinet/icmp6.h> 
void ICMP6 FILTER SETPASSALL(struct icmp6_filter *filt); 
void ICMP6 FILTER SETBLOCKALL(struct icmpe6 filter *filt); 
void ICMP6 FILTER SETPASS(int msgtype, struct icmpo filter *filt); 
void ICMP6 FILTER SETBLOCK(int msgtype, struct icmpo filter *filt); 
int ICMP6 FILTER WILLPASS(int msgtype, const struct icmp6 filter *filt); 
int ICMP6 FILTER WILLBLOCK(int msgtype, const struct icmp6 filter *filt); 
均 返 回 : 若 过 滤器 放行 〈 或 阻止 ) 给 定 消息 类 型 则 为 1， 否 则 为 9 




















所 有 这 些 宏 中 的 filt 参 数 是 指 向 某 个 icmp6_filter 变 量 的 一 个 指针 ， 
其 中 前 4 个 宏 修改 该 变量 ， E RSEN msgtype 参 数 在 0~255 之 
间 取 值 ， 指 定 ICMP 消 息 类 


SETPASSALL 宏 指定 所 有 消息 类 型 都 传递 到 应 用 进程 ，sETBLOCKALL 宏 
则 指定 不 传递 任何 消息 类 型 。 作 为 默认 设置 ， 任 一 应 用 进程 一 旦 创建 一 
个 ICMPv6 原 始 套 接 字 ， 所 有 ICMPv6 消 息 类 型 都 允许 通过 该 套 接 字 传递 
到 该 应 用 进程 。 


SETPASS 宏 放行 某 个 指定 消息 类 型 到 应 用 进程 的 传递 ，SETBLocK 宏 则 
阻止 某 个 指定 消息 类 型 的 传递 。 如 果 指 定 消息 类 型 被 过 滤器 放 
行 ，wILLPASS 宏 就 返回 1， AEN 如 果 指 定 消息 类 型 被 过 滤器 阻 
止 ，wILLBLOCK 宏 就 返回 1， 否 则 返 
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作为 一 个 例子 ， 考 虑 只 想 接收 ICMPv6 路 由 器 通告 消息 的 某 个 应 用 
程序 的 如 下 代码 片段 。 


struct icmp6_filter myfilt; 





fd - Socket(AF INET6, SOCK RAW, IPPROTO ICMPV6); 
ICMP6 FILTER SETBLOCKALL (&myfilt); 


ICMP6 FILTER SETPASS(ND ROUTER ADVERT, &myfilt); 
Setsockopt(fd, IPPROTO ICMPV6, ICMP6 FILTER, &myfilt, sizeof(myfilt)); 


本 例子 首先 阻止 所 有 消息 类 型 的 传递 (因为 默认 设置 是 传递 所 有 消 


县 类 型 ) ， 然 后 只 放行 路 由 器 通告 消息 的 传道。 尽管 如 此 设置 了 过 滤 
器 ， 该 应 用 仍 得 做 好 会 收 到 所 有 消息 类 型 的 准备 ， 因 为 在 socket 和 
setsockopt 这 两 个 调用 之 间 到 达 的 任何 ICMPv6 消 息 将 被 添加 到 接收 队 
列 中 。IcMP6_FILTER 套 接 字 选项 仅仅 是 一 个 优化 措施 。 


28.5 ping 程 序 


我 们 在 本 节 开 发 一 个 同时 支持 IPv4 和 IPv6 的 ping 程 序 版 本 。 我 们 自 
行 开 发 这 个 程序 而 不 直接 提供 它 的 公开 可 得 版 本 源 代码 的 理由 有 两 个 。 
首先 ， 公 开 可 得 的 ping 程 序 犯 有 被 称 为 特性 蔓延 (creeping featurism) 
的 一 个 编程 通病 : 它 支 持 多 个 不 同 的 选项 。 我 们 查看 ping 程 序 的 目的 是 
了 解 网 络 编程 概念 和 技巧 ， 而 不 应 该 被 众多 的 选项 分 散 了 注意 力 。 我 们 
的 ping 程 序 版 本 仅仅 文 持 一 个 选项 ， 篇 幅 约 为 公开 可 得 版 本 的 五 分 之 
一 。 其 次 ， 公 开 可 得 版 本 仅仅 支持 IPv4， 而 我 们 希望 展示 一 个 也 支持 
IPv6 的 版 本 。 

ping 程 序 的 操作 非常 简单 ， 往 某 个 了 地 址 发 送 一 个 ICMP 回 射 请 
求 ， 该 节点 则 以 一 个 ICMP 回 射 应 答 响应 。IPv4 和 IPv6 都 支持 这 两 种 
ICMP 消 息 。 图 28-1 展 示 了 ICMP 消 息 的 格式 。 


ü 78 I5 16 31 
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图 28-1 ICMPv4 和 ICMPv6 回 射 请 求 和 回 射 应 答 消 息 的 格式 


图 A-15 和 图 A-16 给 出 了 这 些 消息 的 类 型 (type) 值 ， 并 指出 它们 的 

代码 (code) 值 为 0。 在 我 们 的 ping 程 序 中 ， 我 们 把 标识 符 (identifier) 
设置 为 ping 进 程 的 进程 ID， 并 且 为 每 个 发 送出 去 的 分 组 递增 序列 号 
(sequence number) 。 我 们 还 以 可 选 数据 Coptional data) 的 形式 存放 
分 组 发 送 时 刻 的 8 字 节 时 间 惟 。ICMP 规 则 要 求 在 回 射 应 答 中 返回 来 自 回 
射 请 求 的 标识 符 、 序 列 号 和 任何 可 选 数据 。 在 回 射 请 求 中 存放 时 间 玲 使 
得 我 们 可 以 在 收 到 回 射 应 答 时 计算 RTT。 


图 28-2 展 示 了 本 程序 的 两 个 运行 例子 : 第 一 个 使 用 IPv4， 第 二 个 使 




















用 IPv6。 我 们 为 这 个 程序 的 可 执行 文件 设置 了 setuid 到 root 的 属性 ， 因 
为 创建 原始 套 接 字 需要 超级 用 户 特 权 。 


freebsd $ ping www.google.com 

PING www.gcogle.comn (216.239.57.99): 55 data bytes 

€4 bytes from 215.239,57,99: seq=0, ttl-53, rtt-5.El. we 
64 bytes fran 216.239.57.93: sey=1, ttl=53, rtt-5.562 us 
64 bytes from 215.239.57.99: seq-2, ttl-53, rtt-5.589 rs 
64 bytes from 215.239.57.99: seqe3s, ttle52, rtte5.510 m5 


freebsd $ ping www.kame.net 

PINS orange, ,kame .Det (2001:209:0:4819:203:47ff:fea&:3085): 56 data bytes 

64 bytes from 2071-200:0:487:9:203:477f:7&885:3085: seqzü, hlimz52, rtt=422.066 ws 
64 bytes from 2021:200:0:43:9:203;47£f:2e85;3085; seq=1, hlim-52, rtt=417.396 ma 
64 bytes from 20721:200:0:4329:203;472f:2025:2085: seq=2, hlim-52, rtt=415.528 ma 
64 bytes from 2021:200:0:48:9:203:47ff:280385:3085: seq=3, hlim-52, rtt-42:..92 ms 


图 28-2 ”ping 程序 运行 例子 输出 
图 28-3 是 构成 我 们 的 ping 程 序 的 各 个 函数 及 调用 关系 的 概貌 。 
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add proc v6 
)——————— Ó 
ARER 经 秘 钟 发 送 一 个 区 射 请 求 





图 28-3 ”我 们 的 ping 程 序 中 各 个 函数 的 概貌 
程序 分 为 两 大 部 分 ， 一 部 分 在 一 个 原始 套 接 字 上 读 入 收 到 的 每 个 分 
组 ， 显 示 ICMP 回 射 应 答 ， 另 一 部 分 每 隔 一 秒 钟 发 送 一 个 ICMP 回 射 请 
Ko 第 二 部 分 由 sTGALRM 人 言 号 每 秒 钟 驱动 一 次 。 


741—742 





图 28-4 给 出 了 所 有 程序 文件 都 包含 的 头 文件 ping ,h。 


pingping. A 
Fincluce "ur.p. li" 
2 flnclu2e -nstinst/in systm.h» 
3 ftincluze «nstinst/io.h» 
4 #incluce «nstinst/ip icmp.h- 
5 Faszins BUFSIZE 1500 
é /* glorals */ 
7 char ser douf [BITESTZX] : 
6 int datalen; /* $ bytes of data following ICME header */ 
© char *host : 
160 int risent + /* edd 1 for each sendto!; */ 
li pid t pic; /* our PID */ 
12 :nt sockfd, 
13 int verbos-; 
14 /* function prototypes */ 
15 vaid init va (void! ; 
16 void proc vá[char +, ssize t, struct msghZr *, struct timeval *]; 
17 void proc vS$[char +, ceize t, struct meghcr *, struct timeval *]; 
18 void serd válvoid!; 
19 void serd vs (void! ; 
20 void readlocp (void) ; 
21 void sig &lrm(iatl; 
272 void tv sub(scrict imeval *, srruct rimeval *;; 
23 struct proto [ 
24 ved (*fproc) (char *, ssize rt, &-rucr msghdr *, srrucr rimeva] 7); 
25 void I*tccna3j (void): 
26 void (*finit} (void); 
27 struct smekacdr *sasersi: /* sockesdir(]) for send, from getaddrinfo 4/ 
28 struct sockacdr ‘Ysarecy; /* soeksder{} tor receivins */ 
29 sccklen_t salen; /* length of sockaddr{js */ 
30 int icupcrotc; /* IPPRITS xxx value For ICME */ 
3i * wprp 
32 $ifdel 3TPV6 
33 fincludc «nctinct/io6.h» 
"4 &£irn ixl enet inet /iompé h> 
36 #endift 
pingiping.h 


图 28-4 ping. nek CF 
包含 ITPv4 和 ICMPv4 头 文件 


1-22 我们 包含 基本 的 IPv4 和 ICMPv4 头 文件 ， 定 义 一 些 全 局 变量 
以 及 各 个 函数 的 原型 。 


定义 proto 结 构 
23-31 我 们 使 用 proto 结 构 处 理 IPv4 与 IPv6 之 间 的 差异 。 这 个 结构 


包含 3 个 函数 指针 、2 个 套 接 字 地 址 结构 指针 、 这 2 个 套 接 字 地 址 结构 的 
大 小 以 及 ICMP 的 协议 值 。 全 局 指针 变量 pr 将 指 回 为 IJPv4 或 ITPv6 初 始 化 的 
某 个 proto 结 构 。 
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包含 IPv6 和 ICMPv6 头 文件 


32-35 ”我们 包含 定义 IPv6 和 ICMPv6 结 构 和 常 值 的 2 个 头 文件 CRFC 
3542 [Stevens et al. 2003] ) 。 


main 函 数 如 图 28-5 所 示 。 


pingémain c 


1 Fiuclude * oim. hl" 

2 struct prato proto v4 = 

3 { prec ví, semi vd, NULL, NULL, MULL, 0, IPPRCTO ICMZ |: 

å Rifcef  TPV65 

5 sleet pro.corolLo vé = 

5 { prec ve, send vs, init_vs, NULL, NULL, 0, IPPROTO ICMPVe }; 
7 Eencif 

8 int de.alen = 56: 25 data that yous with ICMP echo request àz 
9 int 

10 main(inl argc, char ^'*azqv] 

ll: 

12 int e; 

13 struct addrinfo *5i; 

14 2har *h; 

15 onrter-? = il; /* don't want gecept() writing to atderr */ 
16 while | ic = getoor(asxgc, argv, "v")b t= -1) { 

17 switch [c) | 

18 capa 'v': 

19 varbose++; 

20 brcak; 

41 Capa '?': 

22 orr_quit ("unrecognized opticn: 2", C]; 

z3 } 

74 } 

25 it (cptind != args 1! 

76 err fvit ["usage: ping | -v ] chastnames") , 

27 hos! m argv {cpt ed]; 

7a pic a getpid() & Txt ter; /* TOMP IT. fi*ld is 16 bits */ 
29 Signal [STGATRM, sig alrm); 

an ^i = Host se-v[host, NUI, 5, 0j, 

aL h . Eock ntcp hest(ai->ai_sddr, ai »ài addrlcn:; 

22 prirk^;"PTNG Ss ($a): Xd data hytesqn", 

33 Ai-sas_caronname 3 Al-5A1 canonnéme : h, h, datale-!; 
14 f* initialize aceardire to protacal */ 

35 if (ai-o^i T^m y <= AP TNRT) 

36 pr = &proto wa; 


37 #ifdef Ipve 


38 ) elece if (ai-»ai family == AF_INETS) | 

a9 pr = &proto vů; 

40 if 1ING -8 ADDR _V4MAPPSD (&! | (struct sockaddr in6 *] 
41 ai-sai addr!-»5:n$ acdr))) 
42 err quit ("canmpot pirg IPvá-mapped I?v6 address*]; 
43 feudit 

34 ) else 

as err quití'unkncwn address family Sd", ai->ai_forily); 
36 Or->sasend - ai->ai_addr; 

37 pr-»carecv = Calloc(l, ài-»ci addrlcn!: 

4a pr-saalen » Ai-sAi adrien; 

39 roaéloop!):; 

30 axíic(0); 

zL : 


图 28-5 mainek 2 
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pinggirane 


定义 IPv4 和 IPv6 的 proto 结 构 


2~7 ”为 IPV4 和 IPV6 分 别 定义 一 个 proto 结 构 。 其 中 套 接 字 地 址 结构 
指针 成 员 均 初始 化 为 空 指 针 ， 因 为 我 们 还 不 知道 最 终 使 用 的 是 IPv4 还 是 
IPv6. 


n [3e BH TR BE 


e 把 随同 回 射 请 求 发 送 的 可 选 数据 量 设 置 为 56 个 字 节 ， 由 此 产生 
84 字 节 的 IPv4 数 据 报 〈 包 括 20 字 节 IPv4 首 部 和 8 字 节 ICMP 首 部 ) 或 104 
字 节 的 IPv6 数 据 报 。 随 同 某 个 回 射 请 求 发 送 的 任何 数据 必须 在 对 应 的 回 
射 应 答 中 返 送 回来 。 我 们 将 在 这 个 数据 区 的 前 8 个 字 节 存放 本 回 射 请 求 
发 送 时 刻 的 时 间 戳 ， 然 后 在 收 到 对 应 的 回 射 应 答 之 时 使 用 返 送 回来 的 时 
间 惟 计算 并 显示 RTT。 


处 理 命令 行 选项 


15-290 ”本 程序 唯一 支持 的 命令 行 选项 是 -v， 它 可 使 我 们 显示 接收 
到 的 大 多 数 ICMP 消 息 。【〔 我 们 只 显示 属于 本 ping 进 程 的 ICMP 回 射 应 
答 。) 建立 SITGALRM 信 号 的 信号 处 理 函 数 ， 我 们 将 看 到 该 信号 一 经 启动 
将 每 秒 钟 产 生 一 次 ， 导 致 每 秒 钟 发 送 一 个 ICMP 回 射 请 求 。 


处 理 主机 名 参数 


30~48 ”在 命令 行 参数 中 必须 有 一 个 主机 名 或 I1P 地 址 数 串 ， 我 们 调 
用 host_serv 国 数 来 处 理 它 。 返 回 的 addrinfo 结 构 中 含有 协议 族 : 或 
为 AF_INET， 或 为 AF_INET6。 据 此 初始 化 全 局 指针 变量 pr， 让 它 指 同 正确 
的 proto 结 构 。 我 们 还 调用 IN6_IS_ADDR_V4MAPPED 确 认 由 host_serv 返 回 
的 IPv6 地 址 不 是 一 个 IPv4 映 射 的 IPv6 地 址 ， 因 为 这 样 的 地 址 尽管 是 一 个 
IPv6 地 址 ， 发 送 给 其 主机 的 却 是 IPv4 分 组 。 (这 种 情况 下 我 们 可 以 直接 
改 用 IPv4 地 址 。) 把 已 由 getaddrinfo 函 数 分 配 的 套 接 字 地 址 结构 用 于 发 
送 ， 并 另行 分 配 一 个 同样 大 小 的 套 接 字 地 址 结构 用 于 接收 。 
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ping/readioon.c 





1 Hiauclude "ping.h" 

4 void 

3 readlocp (void) 

"n 

5 int size; 

6 char recvout|BUFSIZE]: 

7 char controlbuf [BUPSIZ=] ; 

a struct. regle wag; 

E] struct iovee icv; 

1c eeize t rj 

11 struct timeval tval; 

12 sockfd = Sccke-'pr-»sasenc-25a family. SOCK RAW, pr-»icmpprato!; 
13 setuid(gsta:di)): /* don't need special permissions any more */ 
14 a= (pr-»tin-t) 

5 (*er-»£finit) (); 

16 size = 6C * 1024; /* OK if setsockopt fails */ 
u Beteockopt(seoc«fd, SOL SOCKET, SO RCVBUF, &elze, gizeofiscize!); 
16 sig_#lrm(SIGALRM! ; /* seni firs- racket ^/ 

19 10v.10V bace = recvbut: 

20 iov.iov lea - sizeof (recvbuf) ; 

21 mag. msg rame = pr-ssarecy; 

22 msqy.msz iov = Liov; 

23 msagq.msc iov.on = 1; 

24 msg.msg -oatrol = controlbuf; 

25 for ( 3 3 ) { 

26 msg.rsg namelen ~ pr--salen: 

27 re3.meg controllen = cizeof (controlbuf) ; 

26 3 = recvmegisockf2, msg, 0); 

29 if thw Dy { 

30 if (erro -- EINTR) 

31 sontinuc; 

32 else 

33 PTT_RYRirrPrvmSRE error'!; 

34 ) 

35 Gettimeofday (&tval, NULL); 

EE (*pr-»fpruc)(re-vbuf, n, msg, &tval); 

37 } 

36 ] 


ping/rvadioor.c 


[28-6  readlooprÉ Zi 
创建 套 接 字 


12-13 ”创建 一 个 合适 协议 的 原始 套 接 字 。 调 用 setuid 把 进程 的 有 
效用 户 ID 设置 为 实际 用 户 ID， 适 用 于 本 程序 的 可 执行 文件 具有 setuid 
到 root 的 属性 且 以 普通 用 户 执行 它 的 情形 。 运 行 本 程序 的 进程 必须 拥有 
超级 用 户 特 权 才 能 创建 原始 套 接 字 ， 不 过 既然 套 接 字 已 经 建成 ， 该 进程 
就 可 以 放 径 这 个 额外 特权 了 。 这 类 需要 短暂 拥有 额外 特权 的 程序 最 好 是 
一 旦 不 再 需要 东 个 额外 特权 就 放弃 它 ， 以 防 程序 中 可 能 潜伏 的 缺陷 被 攻 


击 者 利用 。 
执行 特定 于 协议 的 初始 化 
设置 套 接 字 接 收 缓冲 区 的 大 小 


16-17 ”我们 试图 把 套 接 字 接 收 缓冲 区 大 小 设置 为 61440 字 节 
(60x1024) ， 它 应 该 比 默认 设置 大 。 这 么 做 可 以 防备 用 户 对 IPv4 广 播 
地 址 或 某 个 多 播 地 址 执行 ping， 两 者 均 可 能 产生 大 量 的 应 答 。 套 接 字 接 
收 缓冲 区 设置 得 越 大 ， 它 发 生 溢出 的 可 能 性 也 就 越 小 。 

发 送 第 一 个 分 组 

18 ”调用 sIGALRM 信 号 处 理 函 数 发 送 第 一 个 分 组 。 该 函数 除 发 送 一 

个 分 组 外 ， 还 调度 下 一 个 SIGALRM 信 号 在 1 秒 钟 之 后 产生 。 如 此 直接 调用 


计 写 处 理 函 数 并 不 常见 ， 不 过 可 以 接受 。 信 号 处 理 函 数 也 是 C 函 数 ， 尺 
管 它 们 通常 是 异步 调用 的 。 








为 recvmsg 设 置 msghdr 结 构 


19-24 ”设置 将 传递 给 recvmsg 的 msghdr 结 构 及 iovec 结 构 中 的 恒定 成 





xu 


读 入 所 有 ICMP 消 息 的 无 限 循环 


25-37 ”本 程序 的 主 循环 是 一 个 无 限 循环 ， 它 读 入 返回 到 原始 ICMP 
套 接 字 的 每 个 分 组 。 我 们 调用 gettimeofday 记 录 分 组 收取 时 刻 ， 然 后 调 
用 合适 的 协议 函数 (proc_v4 或 proc_v6) 处 理 包 含 在 该 分 组 中 的 ICMP 消 
FA 。 


图 28-7 给 出 了 tv_sub 函 数 ， 它 把 两 个 timeval 结 构 中 存放 的 时 间 值 相 
减 ， 并 把 结果 存 入 第 一 个 timeval 结 构 中 。 





lib/tv sub.c 


1 £irclYuce "ur p.h" 
2 void 
3 tv sub(ctracz tameval *cut, otruct tameval *in) 
4 | 
i£ ( (out-»tv LSsec -= in-»tv ussc) « 0) { /* out -= in */ 
€ --COut-»tv sec; 
7 out-»tv usec +- 1000000; 
R i 
9 Out-»2v sec -= in-»tv sec; 
10 > 


libi sub.c 





图 28-7 tv_sub 函 数 : 两 个 timeval 结 构 相 减 
746 ~~ 747 


图 28-8 给 出 了 proc_v4 函 数 ， 它 处 理 所 有 接收 到 的 ICMPv4 消 息 。 其 
中 涉及 的 IPv4 首 部 格式 参见 图 A-1。 另 外 需 知 道 ， 当 一 个 ICMPv4 消 息 由 
进程 在 原始 套 接 字 上 收取 时 ， 内 核 已 经 证 实 它 的 IPv4 首 部 和 ICMPv4 首 
部 中 的 基本 字段 的 有 效 性 〈TCPv2 第 214~311 页 ) 。 


——————————piing'proc, v.c 


1 #incluce "ping." 
2 void 
3 proc valchar *ptr, ssiza t len, struct megndr *msg. struct tineval *tvrecv) 
4 1 
5 int hisni, icmplen; 
É deuble rtt: 
strucz ip wap; 
$ struct icmp *icmz; 
$ Struct Liweval *Lvseud; 
10 ip = (struct ip *) pir; /* s arb n^ TP header ?/ 
1l hlenl = ip-sip hl << 2; /* length of IP hsader */ 
12 iE (ip--ip p !- IPERCTO ICMP; 
13 return; /* nct ICMP */ 
14 icum = (s-ruct icr *) (ptr + hlen1); /* star- of ICMP header */ 
15 if ( (iempler - len - hlenl) < 8j 
16 rcturn; /* maltormed packst */ 
17 if (icmp-»icmp typs == ICMP_BCHOREPLY! { 
18 if (icmp-»icmp id Iz pid) 
19 return; /* nct a response tc our ECHO REQUEST */ 
20 i: (icmplen < 16) 
ei return; /* nct enough data zo use */ 
22 tvsend = {struct timeval *) icmp-»icup data; 
23 tv_suhn(tvrecy, tvsendá); 
z4 rtt = tvrecv-sty cec * 1000.0 4 tvrecv-»tv usec / 1C0C.U; 
25 print ("td bytes from $5: seq=%u, ttl=%d, rtt=%,3f ms\n", 
26 icuplen, Sock ntop Niost (br->Sarecy, pr-»salen), 
27 icmp-»icmp seg. ip-»-p ttl, rtt}; 
i8 } eise it (verbose) { 
2 printz(*' èd bytes from $23. type = $c, code = $din', 
3 


9 

0 icuplen, Sock ntop nost(pr-»sarecv, pr-»salen), 
1 icup-»icmp type, icmrp-»icmp cede): 

2 

3 


pingproc wic 














图 28-8 proc vaPA Zi: 处 理 所 接 收 的 ICMPv4 消 息 
获取 ICMP 首 部 指针 


190-16 “将 IPv4 首 部 长 度 字 段 乘 以 4 得 出 IPv4 首 部 以 字 节 为 单位 的 大 
小 。 (IPv4 首 部 可 能 含有 选项 。) 我 们 据 此 把 icmp 设 置 成 指向 ICMP 首 
部 的 开始 位 置 台 。 我 们 确定 IP 协 议 是 ICMP， 而 且 有 足够 的 回 射 数据 来 查 
求 中 的 时 间 戳 。 图 28-9 标 示 了 本 段 代 码 所 用 的 各 个 首 
部 、 指 针 和 长 度 。 
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len 
hleni icmplen 


ICMPv4 
MN 首部 
i 20 字 节 0-40 à 8 


ip icmp 





ICMP Ac He 


IPv4 首 部 IPv4 选 项 























图 28-9 ”处 理 ICMPv4 应 答 涉及 的 首部 、 指 针 和 长 度 
检查 ICMP 回 射 应 答 


17-21 如 果 所 处 理 的 消息 是 一 个 ICMP 回 射 应 答 ， 那 么 我 们 必须 检 
查 标 识 符 字段 ， 判 定 该 应 答 是 否 响应 于 由 本 进程 发 出 的 请 求 。 如 果 本 主 
机 上 同时 运行 着 多 个 ping 进 程 ， 那 么 每 个 进程 都 得 到 内 核 接 收 到 的 所 有 
ICMP 消 息 的 一 个 副本 。 


22-27 ”通过 从 当前 时 间 (由 函数 参数 tvrecv 指 同 ) 减 去 消息 发 送 
BER] (包含 在 ICMP 应 答 的 可 选 数据 部 分 中 ) ， 我 们 计算 出 RTT。 把 
RTT 从 人 微 秒 数 转换 成 旱 秒 数 之 后 ， 与 序列 号 字段 以 及 接收 TTL 一 道 显 示 
输出 。 序 列 号 字段 使 得 用 户 能 够 查看 是 否 发 生 过 分 组 丢失 、 错 序 或 重 
复 ， 接 收 TIL 则 给 出 两 个 彼此 通信 主机 之 间 步 跳 数 的 某 种 指示 。 


耕 指 定 -Vv 则 显示 所 有 接收 ICMP 消 乱 


28-32 ”如 果 用 户 指定 了 -v《〈 详 尽 和 输出 ) 命令 行 选项 ， 那 就 显示 除 
回 射 应 答 外 的 所 有 接收 ICMP 消 息 的 类 型 字段 和 代码 字段 。 


ICMPv6 消 息 的 处 理由 proc_v6 函 数 完 成 ， 如 图 28-12 所 示 。 它 类 似 于 
proc_v4 函 数 ， 不 过 既然 IPv6 原 始 套 接 字 不 返回 IPv6 首 部 ， 它 就 以 辅助 数 
据 的 形式 接收 ICMPv6 分 组 的 跳 限 。 接 收 这 个 辅助 数据 要 求 预 先 为 所 用 
人 这 是 由 图 28-10 给 出 的 init_v6 函 数 
JG `J o 


























pingini! vé. 





1 void 

2 init vé() 

3 { 

4 #ifdef IFVG 


s izat un = :; 


6 it (verboce =-= 0) { 

7 /* install a filter that cnly passes ICME6 ECHO REPLY unless verbose */ 
& struct icmcé filter myfilt; 

E) ICMPE FILTER SZTBLOCKALL ;&rryfilc): 

10 ICMPEe FiLTER EZTDAES(ICMPS ZCHO REPLY, Smytilt); 

11 seLsockopt(socxfd, IPERJTO IPV6, ICMP6 FILTES, &uylilt, 

12 sizeof imy=ilt)); 

13 /* ignore error return; tne filter ie an optimization */ 

14 

15 /* ignore error returned below: we just won't receive the hop limit */ 
16 $ifdGef LPV€ RELVHOELIMIT 

ae /* RFC 3542 */ 

18 set sockaplisockid, TEPROTO_IPV6, TPV6_RECVHOPLIMIT, Son, sizeof ion, ); 
19 #alse 

<0 /* RFC 2292 */ 

21 setsockap-isockzód, IFPROTO IPV6, IPV6 HOPLIMIT, fon, sizeozior'); 

22 #endif 

2J fendif 

24 | 


pingini! v6.c 





图 28-10 init ver&Zy: 初始 化 原始 ICMPv6 套 接 字 
设置 TCMPv6 接 收 过 滤器 


6~14 ”如果 用 户 没 有 指定 -v 命 令 行 选项 ， 那 就 在 所 用 的 原始 
ICMPvGEBCT Lo PE a 阻止 除 回 射 应答 外 的 所 有 ICMPv6 消 
恩 。 这 么 做 可 以 缩减 该 僚 接 字 上 收取 的 分 组 数 。 


请 求 zpv6_HoPLIMIT 辅 助 数据 


15-22 ”请 求 随 外 来 分 组 收取 跳 限 的 API 发 生 过 变动 ， 不 过 新 旧 两 个 
版 本 都 通过 开启 某 个 套 接 字 选项 完成 。 我 们 首选 较 新 版 本 
(IPV6_RECVHOPLIMIT) ， 但 如 果 没 有 定义 相应 常 值 就 可 以 尝试 旧版 本 
(iPV6 HOPLIMIT) 。 我 们 不 检查 setsockopt 的 返回 值 ， 因 为 是 否 接收 跳 
限 无 关 紧 要 。 
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proc verK Zi (128-12) 处 理 外 来 分 组 。 
获取 ICMPv6 首 部 的 指针 


11-13 ”从 原始 ICMPv6 套 接 字 接收 的 仅仅 是 ICMPv6 首 部 。 《回顾 
一 下 ， 由 IPv6 原 始 套 接 字 上 的 输入 操作 作为 普通 数据 返回 的 是 扣除 了 
IPv6 首 部 和 所 有 扩展 首部 的 净 荷 ，IPv6 首 部 中 的 字段 以 及 扩展 首部 只 能 
作为 附加 数据 返回 。) 图 28-11 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 指 针 


和 长 度 。 
| len | 


ICMPv6 





ICMP 首 部 

















图 28-11 处理 ICMPv4 应 答 涉 及 的 首部 、 指 针 和 长 度 
检查 ICMP 回 射 应 答 
14-37 如 果 所 处 理 的 ICMP 消 息 是 一 个 回 射 应 答 ， 那 就 检查 标识 符 
字段 ， 判定 它 是 个 是 给 本 进程 的 应 答 。 若是 则 计算 RTT， 并 与 序列 号 和 
IPv6 跳 限 一 道 显 示 输 出 。 其 中 跳 限 来 自 于 IPv6_HOPLIMIT 辅 助 数 据 对 象 。 
750 
苛 指 定 -Vv 则 显示 所 有 接收 ICMP 消 息 


38~41 ”如 果 用 户 指定 了 -v《〈 详 尽 和 输出) 命令 行 选项 ， 那 就 显示 除 
回 射 应 答 外 所 有 接收 到 的 ICMP 消 息 的 类 型 字段 和 代码 字段 。 














pingos voc 


1 include "ping.h" 

2 void 

3 zroc vGíchar “prr, ssize t len, struct msghir *msg, struct tineval* tvrecv! 
a ( 

5 Witdef  IPV6 

6 Couble rL.; 

7 etruct icnpe hár*ricmpe; 

B struct tineval *tvszsnz; 

9 struct crsghür *cmsG; 

LO int hlim; 

11 icwp6 = (struct icup6 hdr *! ptr; 

12 if (len = 8) 

L3 rezum: /* malformed packet */ 

14 if (icupS->icmp6_type == ICMP6 ECHO REELY) { 

is if iLemps-siemps id l- pid) 

1€ return; /* not a response to our ECHO REQUEST */ 
17 if ilen < 1€) 

lE return: /* not enough data co uss */ 
1€ waerd = (struct timevel *) (iomp + 1); 

20 -v sub(tvrecv, -vsend,; 

21 rtt = tvrcev >tY SCC * 1C00.0 + tvrecv »tv 2556€ / 1000.0; 
22 him = -1; 

23 tor (cmeg = CMSC FIRSTHDR(msa}; Smeg != NULL; 

24 cmsg = CMSG NXTHDR(msz, cmsg)! | 

25 if icmsgj-5crsg level == IPFROTO IPVE 

2€ && cmoq-»cmoq type <= IPV6_HOPLIMIT) { 

7 hlim = ^íu int32 t *)CMS3_CATA(cmsg) ; 

26 break; 

29 ] 

30 } 

31 printf ("+d bytes from ts: seg-tu, hlim-", 

32 len, Seck_ntop_host (pr »carccv, pr »sa.cn),icmpe »icmp& 3c3); 
33 if thlim == -1) 

34 princf("?2?"); /* ancillary daca missing */ 
35 elce 

3€ princf("$2", Klimis 

37 princf(", rtt-*.3f msAn', rtr]; 

3€ } else iE (verbose) 

3e princf(" Ad bytes from $s: type = 4d, code = &dWMn*, 
4C len, Sock nrzop host (pr->sarecv, pr--sa-sn), 
41 icwp6 -icmp$5 typc, icmz6-»icmpso codo; 

42 } 

43 ferdif /* ive */ 

44 ) 


pincproo vée 


图 28-12 proc vešt: 处 理 所 接 收 的 ICMPv6 消 息 
751 
我 们 的 SITGALRM 信 号 处 理 函 数 是 sig_alrm 函 数 ， 如 图 28-13 所 示 。 我 


们 在 图 28-6 的 readloop 函 数 中 一 早 就 调用 过 该 函数 一 次 ， 从 而 发 送出 第 
一 个 分 组 。 访 函数 仅仅 调用 协议 相关 的 函数 发 送 一 个 ICMP 回 射 请 求 


(send v4BVsend v6) ， 然 后 调度 下 一 个 SIGALRM 在 1 秒 钟 之 后 产生 。 


piag/sig alrm.c 





1 Horo Lend “ping h” 
2 void 

3 sig almm(int signa) 

4 

5 


\*pr->fcend) (i; 


É alarm(ii; 
7 return; 
E] 


piagsig alrm.c 














图 28-13 sig_alrm t: SIGALRM 信 号 处 理 函 数 


图 28-14 给 出 的 send_v4 函 数 构 造 一 个 ICMPv4 回 射 请 求 消息 并 把 它 写 
出 到 原始 套 接 字 。 





pingisend w.e 





1 #incluce "ping. h* 

2 void 

3 gend vi (void) 

4 1 

5 it leri: 

€ struct icmp *cmc; 

7 icma s (s-ruct icem *) sendbuf: 

£ icr-»icmp type = 1CMP ECHO; 

9 icmp =icmp_ceds = 0; 

10 icnp-»ieamp _ ic « 5:4; 

11 lcg > emp sex m onse? 

12 msense-licmp-»icomz data, Jxab, datalen!, /* fill with pattern */ 
13 Gettimeotdzy([struct timeval +) icmz--icmp dcta. NULL); 

14 lan - 8 4 datalen; /* cbecksum ICMP header ard data */ 
15 icno-»icmp_ckeum = 0; 

16 icmp--icemp cksum = in ckaum!(u shzrt *) icmp, len); 

17 Senatcisockic, sendbuf, len, ©, pr->sasend, pr->ealen); 

18 : 


pingisend i.c 


图 28-14 send varRZy: 构造 并 发 送 一 个 ICMPv4 回 射 请 求 消息 





构造 TCMPv4 消 息 


7-13 ”构造 ICMPv4 消 息 ， 把 标识 符 字 段 设 置 为 本 进程 ID， 把 序列 
号 字段 设置 为 全 局 变量 nsent， 然 后 为 下 一 个 分 组 递增 nsent， 先 在 该 
ICMP 消 息 的 数据 部 分 填充 以 值 为 0xa5 的 模式 ， 再 在 这 个 数据 部 分 的 开 
始 处 存 入 当前 时 间 。 
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计算 ICMP 校 验 和 


14-416 “为 了 计算 ICMP 校 验 和 ， 我 们 先 把 校 验 和 字段 设置 为 0， 再 
调用 in_cksum 函 数 ， 并 把 返回 值 存 入 校 验 和 字段 。ICMPv4 校 验 和 的 计 
算 涵 新 ICMPv4 首 部 及 后 跟 的 任何 数据 。 


发 送 数 据 报 


i7 ”通过 原始 套 接 字 发 送 刚 才 构 造 的 ICMP 消 息 。 既 然 我 们 没有 开 
局 IP_HDRINCL 套 接 字 选项 ， 内 核 将 为 我 们 构造 IPv4 首 部 并 把 它 安置 在 我 
们 的 缓冲 区 之 前 。 


网 际 网 校 验 和 是 被 校 验 的 各 个 16 位 值 的 二 进 制 反 码 和 Cones- 
complement sum) 。 如 果 数 据 长 上 度 为 奇数 个 字 市 ， 那 就 为 计算 校 验 和 而 
在 数据 末尾 逻辑 地 添加 一 个 值 为 0 的 字 市 。 在 计算 校 验 和 之 前 ， 要 将 校 
验 和 字段 置 0。 本 算法 适用 于 IPv4、ICMPv4、IGMPv4、ICMPv6、UDP 
和 TCP 等 首部 的 校 验 和 字段 。 关 于 网 际 网 校 验 和 的 额外 信息 及 若干 数值 
例子 参见 RFC 1071 [ Braden, Borman, and Partridge 1988] 。TCPv2 的 8.7 
节 更 为 详细 地 讨论 了 这 个 算法 ， 并 给 出 了 一 个 效率 更 高 的 实现 。 图 28- 
15 给 出 的 in_cksum 函 数 用 于 计算 校 验 和 。 





'ibjree/it: c&suum.c 


1 u:intlé t. 

2 in exoum(uirtl6 t addr, int lcn) 

3 ( 

4 int nleft - len; 

5 vint32 t sun = 0; 

6 uinti t tw - addr; 

J uintlé_t answer = 2; 

8 /* 

S * Our algcrithm is simple, using a 32 bit accumulator (sum). we add 
10 * sequential 16 bit words to --, and at the end, fold back al. the 
11 * carry bits from the top 16 bits into the lower 16 bits. 

12 +/ 

13 while (nleft > 1} { 

ld sum += *wét; 

15 nlof? ^e 2t 

16 ) 

17 /* mop up an odi byte, if necessary “/ 

18 iz (nleft == 1) [ 

19 ^tunsigned chaz *);sanswer) - *(unsioned char *)w ; 

20 sut += answer; 

21 } 

22 /* add back carry outs from top 16 bits to low 16 bite */ 

23 sum = (sum +> 16! + (sum S CxEfEf); /* add hi 16 to low 16 */ 
24 sum += [cum »» 15); fr adi carry */ 

25 &nswer = -a3um; /* truncate to 16 bits */ 

26 ret urní(arsaer):;: 


libfree/in cksum.c 
图 28-15 in cksumPA ZA: 计算 网 际 网 校 验 和 
753 


网 际 网 校 验 和 算法 


1-27 ”第 一 个 while 循 环 计算 所 有 16 位 值 的 和 和。 如 果 长 度 为 奇数 ， 
那 就 把 最 后 一 个 字 节 也 加 入 总 和 中 。 图 28-15 所 示 的 算法 是 一 个 简单 的 
算法 ， 对 于 我 们 的 ping 程 序 确实 够 用 了 ， 然 而 对 于 由 内 核 执 行 的 大 数据 
LL 因而 内 核 通 常 都 有 特别 优化 过 的 校 验 和 算 
ik. 





本 函数 取 目 由 Mike Muuss 编 写 的 ping 程 序 的 公开 域 (public 
domain) 版 本 。 


我 们 的 ping 程 序 版 本 的 最 后 一 个 函数 是 如 图 28-16 所 示 的 send_v6， 
它 构造 并 发 送 一 个 ICMPv6 回 射 请 求 。 





-ping/send. v.c 





1 #ineluce "ping." 


2 void 

3 send w€() 

4 1 

$ Lifdef Tews 

é int len; 

7 strucz icmp6 hor*icmeé; 

6 icno = istzuct icvp? hdr +) sendbuf. 

9 icrmé-»icmpé type = ICMPS ECHO REZUSST; 

10 icmos->Lemp6 code - J; 

IL icro6->»icmp6_id - pid; 

12 icnp6-»icmpó seq = nsentr+; 

13 mense-i(icmpeé + 1), 2xa5, datzlzn); /* £ill with pettern */ 
14 Gsttireofdsy((etruct timeval =») [ictpo + L), NULL); 

15 len = 8 + datalen; /* 8 byte ICMPv6 header */ 
16 Sendtcisockic,. sendbuf, len. C. pr-asasend, p--»salen); 
17 /* kernel calculates and stores checksum fcr us */ 
48 fendif /* Ipvs */ 

19 : 


pingisend v.c 


图 28-16 send verK Zi: 构造 并 发 送 一 个 ICMPv6 回 射 请 求 消息 


send_v6 国 数 类 似 send_v4， 不 过 需 注 意 它 并 不 计算 ICMPv6 校 验 和 。 
正如 我 们 在 本 章 早 先 所 提 ， 既 然 ICMPv6 校 验 和 的 计算 涉及 IPv6 首 部 中 
的 源 地 址 ， 该 校 验 和 就 由 内 核 在 选取 源 地 址 之 后 蔡 我 们 计算 并 设置 。 
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28.6 ”traceroute 程 序 


我 们 在 本 节 开 发 一 个 自己 的 traceroute 程 序 。 与 上 一 节 开 发 的 ping 
程序 一 样 ， 我 们 也 是 开发 自己 的 版 本 ， 而 不 是 给 出 公开 可 得 版 本 。 这 么 
做 的 理由 仍然 是 我 们 既 需 要 一 个 同时 支持 IPv4 和 IPv6 的 版 本 ， 又 不 希望 
与 我 们 关于 网 络 编程 的 讨论 无 多 大 关系 的 众多 选项 分 散 了 注意 力 。 


traceroute 人 允许 我 们 确定 IP 数 据 报 从 本 地 主机 游历 到 某 个 远程 主机 
所 经 过 的 路 径 。 它 的 操作 比较 简单 ，TCPv1 第 8 章 以 多 个 使 用 例子 详细 
讲解 了 它 的 原理 和 用 途 。traceroute 使 用 IPv4 的 TTL 字 上 段 或 IPv6 的 跳 限 
字段 以 及 两 种 ICMP 消 息 。 它 一 开始 同 目 的 地 发 送 一 个 TIL (或 跳 限 ) 
为 1 的 UDP 数据 报 。 这 个 数据 报导 致 第 一 跳 路 由 器 返 送 一 个 ICMP “time 
exceeded in transmit” (传输 中 超时 ) 错误 。 接 着 它 每 递增 TTL 一 次 发 送 
一 个 UDP 数据 报 ， 从 而 逐步 确定 下 一 跳 路 由 器 。 当 某 个 UDP 数据 报到 达 
最 终 目的 地 时 ， 目 标 是 由 这 个 主机 返 送 一 个 ICMP“port unreachable (fij 
口 不 可 达 ) ”错误 。 这 个 目标 通过 同一 个 随机 选取 的 (但 愿 ) 未 被 目的 
主机 使 用 的 端口 发 送 UDP 数 据 报 得 以 实现 。 








早期 版 本 的 traceroute 程 序 只 能 通过 设置 IP_HDRINCL 套 接 字 选项 直 
接 构 造 自己 的 IPv4 首 部 来 设置 TIL 字段。 然而 如 今 的 系统 却 提 供 IP_TTL 
套 接 字 选项 ， 它 允许 我 们 指定 外 出 数据 报 所 用 的 TTL。 (这 个 套 接 字 选 
项 随 4.3BSD Reno 版 本 引入 。) 设置 这 个 套 接 字 选项 比 构造 完整 的 IPv4 
首部 容易 得 多 《尽管 我 们 将 在 29.7 节 给 出 构造 ITPv4 首 部 和 UDP 首部 的 方 
法 ) 。IPV6 的 IPV6_UNICAST_HOPS 套 接 字 选项 允许 我 们 控制 IPv6 数 据 报 的 
跳 限 字段 。 


图 28-17 给 出 所 有 程序 文件 都 包含 的 trace.h 头 文件 。 














trecercute/frace fi 


1 include *unp.^" 

2 d$:n-lude enetinet/in sys-m hə 

3 d:n-lude enet inet/ip.h» 

4 4-n-lude «netinet/ip icwp.h» 

= jinclude enet inet /udr . h> 

E {define BUFSIZE 153 

7 struct gee ' /* foral cf oulqoine UDP data */ 
J u shori sec aw; /* sequence uwabez 了 

5 u shorc sec tol; /* TTL pecket left with ^/ 

10 sLruct Liweval rez tv; /* tine packet left */ 

ii 

i2 fs globals */ 

13 char recvbuf [BUFSIZE]; 

14 char eendbuf [BUFSIZE]; 

15 int dacalen; (= Ë bytes of data following ICKF header */ 
i6 char *h2et; 

17 v chort sport, Cport; 

i8 int nzent; f* add l for sach ceréto!) */ 

19 pid t pid: f* our PID */ 

20 int prcbc, mpropis: 

Z1 int scndfd, rccvtá: /* send oz UDP sock, read on raw ICM! sock */ 
22 int ttl, mex ttl; 

23 int verhose; 

24 /* function prctotypes */ 

25 conat char *-cmocode v4 lint! ; 


const char  *-emocode v6 iin-!; 


27 int rec vé(int, struct timeval *); 

2A int recv_vG(ink, struct timeval *); 

29 vend sic Aivm(int); 

30 ward trace | aap (void) ; 

^1 wea d tv seubjs-ruck timeval *, struct tineval *); 


32 struct proto { 
33 conet char 
34 in- 


*(*icmpcede) (int); 
(*recy] lint, struct timewal *); 


35 struct sockadó- *sasend; /* sockaddr() for send, from getacó-into */ 
36 struct sockaddy  *sarecv; é* sockaddr() for receiving */ 
3? struct sockadi- *salast; /* las: sockaddr() for receiving */ 
38 struct sockadd:  *sab-nd; ik sockaddr() for binding source port ^/ 
39 socklen . salen: /* length of sockaddi()s */ 
40 in. icpsroto; /* IPPROTO xxx value for ICMP +7 
41 iu. Ltllevel; jA weLsockos-(] level io sel TTL 4/ 
42 ins ttlopcname: /^ swtuockoscz() name to set TTL 4/ 
43 } *pr; 
44 4ifdet  IPVG 
45 include «netinzet/ip6.h» 
46 4include «netinet/icrpe.-» 
47 4endit 
fraicerautsfrace A 
[28-17 trace.h 头 文件 


1-11 我们 包含 定义 IPv4、ICMPv4 和 UDP 的 结构 和 常 值 的 标准 IPv4 
头 文件 。rec 结 构 定 义 我 们 发 送 的 UDP 数据 报 的 数据 部 分 ， 不 过 我 们 将 


发 现 其 实 无 需 查 看 这 些 数据 。 发 送 它们 主要 是 为 了 调试 目的 。 
定义 proto 结 构 

32~43 ”与 上 一 节 的 ping 程 序 一 样 ， 我 们 通过 定义 一 个 proto 结 构 来 
处 理 IPv4 和 IPv6 之 间 的 差异 ， 该 结构 含有 体现 这 两 个 卫 版 本 之 间 差 异 之 
所 在 的 函数 指针 、 套 接 字 地 址 结构 指针 和 其 他 常 值 。 当 main 函 数 处 理 完 
目的 地 址 之 后 (程序 将 使 用 IPv4 还 是 IPv6 就 由 目的 地 址 决定 ) ， 全 局 指 
针 变 量 pr 将 被 按照 所 用 IP 版 本 设置 为 指向 某 个 为 IPv4 或 IPV6 初 始 化 过 的 
proto 结 构 。 
包括 IPv6 头 文件 

44~47 “我们 包含 定义 IPv6 和 ICMPv6 结 构 和 常 值 的 头 文 件 。 

7557-756 


图 28-18 给 出 main 函 数 。 它 处 理 命令 行 参 数 ， 为 IPv4 或 IPv6 初 始 化 pr 
指针 ， 并 调用 traceloop 函 数 。 





LI O 


BOJAN A 


10 
12 
12 
13 


14 
15 
16 
17 
18 
19 


iroceronie/niain.c 


#incluce "trace. l” 
struct proLoprotz v4 = { lompeode_v4, recv_v4, NULL, NULL, NULL, NULL, 9, 
IPPROM_ ICMP, IPPROTO IF, IP TTL 
HE 
#ifdef IVG 
struct protoprotc_vé = | icmpcode_v5, reev_vé, NULL, NULL, NULL, NULL, 9, 
IPPROTO_ICMPVG, IPERCTO IPVG, IPVG CNICAST HOPS 
Hn 
f$endit 
ant datalen ~ sizeof (struct rac); /+ defaults */ 
ant max_ttl = 30; 
ant nprobes = 3; 
u start dport = 32768 + 666; 
ant 
mainiins argc, char **argy! 
: int C; 
etruct addrirto *ai; 
char ‘%h; 
ozterr = ð; /* don't want getozt() writing to s-derr */ 
while | ic - qetcpc;arge, argv. *"r:v*)) i= -1) [| 
owitch (c) i 
case 'm': 
if ( (max ttl = atoi[(optargl) <= 1) 
err quít("invslíd -m value"); 
break ; 
case ‘v's 
verboss++4; 
break; 
case '?'; 
err quit("anrecogrize2 cpticn: &c", c}; 
) 
1 
1 
if (ostind !- arge 1) 
err quiL("usage: LrecerouLe © -m «maxtt:» -v J «hostnaens»"]; 


host = argv[optizd]; 
pid = qetpid(;; 


36 Signal(SIGALRM, sig alrm!; 


39 &i = Host serv(hos-, NULL, C, 0}; 

40 h = Sock ntop naostí(ai-»zi addr, ai-»ai azdr-zn), 

41 print’ (*tracercute to ts ($s): d hops mex, $d data byces\n" 
4a ai->ai canonrame ? ai--ai canonrame : h, h, max ttl, datalen); 
43 /* initialize according to protocol */ 

44 iz (zi-»3i family -- AF INEI) ` 

15 Pr - &proto v4; 

46 ifdef  TPV6 

37 ) eise if (ai->ai family -- AF NETS) { 

46 zr = &proto vt; 

49 if (ING IS ADDR V4MBPFE- 

50 (ricis rur s wkeaddr inâ “Jai -3ai add: ! -»5in6 eidr ))) 
51 arr quit ("cannot traceroute iPvi-mapred IPv6é adcress") ; 
52 #endif 

53 ] else 

54 err quit("urnkroan address family $2", ai-»ai family); 

55 pl-»5aserd = ai->ai addr; f* corta rms des-ination address */ 
SE pr-ssarecv - Callocil, ai->ai addrilen!; 

$7 pr->calact = Callocil, zi-»2i addrlen|; 

56 pz-»sabird = Callocil, zi-»ai addrlen'; 

ss pz-»saler = ai-»ai addrler; 

60 t-acelcopí); 

61 exit {0}; 

62 ) 


MACE LEAI. 





图 28-18 traceroute 程 序 的 main 函 数 





定义 proto 结 构 


2~9 为 IPv4 和 IPv6 分 别 定 义 一 个 proto 结 构 ， 不 过 直到 本 函数 末尾 
才 分 配 指向 套 接 字 地 址 结构 的 指针 。 


设置 默认 值 

10-13 ”本 程序 使 用 的 最 大 TIL 或 跳 限 默认 为 30， 不 过 用 户 可 以 使 
用 -m 命 令 行 选项 修改 该 值 。 对 于 每 个 TTL 值 ， 我 们 发 送 3 个 控 测 分 组 ， 
不 过 用 户 同样 可 以 使 用 某 个 命令 行 选项 修改 该 值 。 目 的 端口 的 初始 值 为 
32768+666， 以 后 每 发 送 一 个 UDP 数据 报 其 值 就 递增 1。 我 们 但 愿 数据 报 
最 终 到 达 目 的 地 时 ， 目 的 主机 上 未 在 使 用 这 些 端口 ， 不 过 无 法 保证 。 
处 理 命令 行 参数 

19-37 “-v 命 令 行 选项 致使 显示 大 多 数 接收 ICMP 消 息 。 


处 理 主机 名 或 下地 址 参数 并 结束 初始 化 





38-58 调用 我 们 的 host_serv 函 数 处 理 目 的 主机 名 或 耻 地 址 ， 它 返 
回 指 问 某 个 addrinfo 结 构 的 一 个 指针 。 根 据 返 回 地 址 的 类 型 〈IPv4 或 
IPv6) ， 完 成 所 用 proto 结 构 的 初始 化 ， 把 指向 该 结构 的 指针 存 入 全 局 
变量 pr， 并 分 配 若 干 个 大 小 合适 的 套 接 字 地 址 结构 。 


59 调用 图 28-19 中 给 出 的 traceloop 函 数 发 送 UDP 数 据 报 并 读 取 返 
送 的 ICMP 出 错 消息 。 该 函数 是 本 程序 的 主 循环 。 


我 们 接着 查看 由 图 28-19 给 出 的 traceloop 函 数 。 





fraceicutsifracekacp c 


1 include *trace.n" 

2 void 

3 brace leap (veid! 

44 

5 int seq, code, Si 

6 double rtt; 

了 struct rec *rec; 

8 Struct Cimeval Lvxecv; 

9 recv?d = Socket (pr-ssasend->ea_family, SOCK RAW, pr-»icmpproto): 
20 selsid/oetuid[)); /* Con need special ovcmissions anywoce ^/ 
11 #ifder cris 

i if ipr-ssasend-»sa Eamily -- AF IUET6 && verbose -- 0) { 

+ struct icmpé filter myfilt; 

14 TCME6 FILTRR_SETRLOCKALL [&myfilt} ; 

15 TCMP6 PTLT3R 3ETPAZA!ICMPG TTMZ EKCEROTD, amyfilt) ; 

15 ZCMF6 PILT3R SETPAZS;ICMPO DST UNREACHI, Gmytilt!, 

13 setsockcpt(rccvfd, LPPRCTO_live, 1CHMPs FILTER, 

zB &myfilt, sizeof(nyfilt);:; 

23 ) 

20 deudif 

21 send?d - Socket (pr->sasend->sa_familv, SOCK DGRAM, 0); 

22 pr-»oabind-»ca fanily = pr-»casend-»9sa family; 

23 sport - (qe:zpid(! & Oxffff) | 0x8000:  /* our source ULP port 4 */ 
24 sock set port(pr-ssabinc, pr->salen, htcns(sport)); 

25 Bind(sendfd, pr-»sa-ind, pr-»salen): 

26 E-q alrm(SIGALRM!; 

27 ceq = Or 

28 done - 2: 

25 for (ttl ~ 1; ttl <= max ttl an donu =- 0; ctle+) { 

30 Set sackopt (sencfd, pr-sttllevel, pr-»t-lop-nawe, Sttl, sizeof (int)} ; 
31 bzere!pr-ssalast, pr-ssalen!; 

2 printf("420 ", ctl); 

33 fflush(st.dont.) ; 

34 for {pecke = 0; probe < mprubes; probes+) ( 

35 pes m fst pec ^) sendoe, 

35 rez-»rec seq = t-s2q; 

7 rez-»rec ttl = ttl; 

39 Gettimecrday[&rec-»zec tv, NUL.!; 

39 &o^k set partí(pr-2*Aaaead, pr->aalen, htens(dport + seg)!, 
40 Sendto(senctd, cendbut, dataicn. 0, pr-soncend. pr »oclen); 
41 if ( {cede = (4pr-stecy) (seg, atwrecv)) == -3) 

42 print£f(" ="); /* timeout, no reply */ 

3 else Í 

41 char — str[NI M^XHOST]: 

45 if (socx cmp adér!pr-»5arecv. pr-»salast, pr-vzea.en! !- 0) | 
4& if (getzameinfo(pr-»carecv, pr->calen, otr, sizeof (ctr). 
47 NULL, 9, 0) -- 0) 
46 printf(" t= (%e)*, str, 


45 Sock ntoo host |pr-ssazecv, pr-»saleni!]; 


SC else 


51 printi" ts", S: otop hi (pr-25e7rcv, pr-»salenl): 
sz memcpy (pz-*salast, pr- >Serecy, pr->salen! 

5 } 

54 tv sub(&tvrecv, &rec-»rec tv); 

ss rt- = rvTmecv.rv sac * 1000 0 + rvrecu,-v usec / 1000.9; 

5€ orintf(" $.3E me", roti; 

55 if {code -~ -1! /* sort unreachable: at destination */ 
SA Gone++: 

59 alse if (code >= J} 

60 printf(" (ICME ts)", (*pr-»icmzcode) (code): 

51 

b2 Eflush(stdoct); 

53 ) 

64 princf("\n"); 

65 } 

56 } 


racercnieMeceloor.c 

















图 28-19 traceloopr žit: 主 处 理 循环 











创建 两 个 套 接 字 


o-10 ”我 们 需要 两 个 套 接 字 : 从 中 读 入 所 有 返 送 ICMP 消 息 的 一 个 
原始 套 接 字 ， 从 中 以 不 断 递增 的 TIL 写 出 探测 分 组 的 一 个 UDP 套 接 字 。 
原始 套 接 字 创建 完毕 之 后 ， 我 们 把 本 进程 的 有 效用 户 ID 重 置 为 实际 用 户 
ID， 因 为 我 们 不 再 需要 超级 用 户 权 限 。 


设置 TCMPv6 接 收 过 滤器 


11-21 如 果 这 是 一 个 IPv6 原 始 套 接 字 ， 而 且 用 户 没 有 指定 -v 命 令 
行 选 项 ， 那 束 在 这 个 原始 套 接 字 上 安装 一 个 过 滤器 ， 阻 止 除 "time 
exceeded” 和 “destination ”unreachable” 这 两 类 ICMPv6 出 错 消 息 外 的 所 有 
ICMPV6 消 息 。 这 么 做 可 以 缩减 该 套 接 字 上 收取 的 分 组 数 。 


给 UDP 套 接 字 捆 绑 源 器 口 


21-25 调用 bind 在 UDP 套 接 字 上 捆绑 一 个 用 于 发 送 的 源 端 口 ， 所 
用 值 为 本 进程 了 的 低 序 16 位 ， 不 过 高 序 位 总 是 置 为 1。 既 然 本 程序 可 能 
有 多 个 副本 同时 运行 在 本 地 主机 上 上， 我 们 有 必要 区 分 一 个 接收 ICMP 消 

忌 是 出 于 啊 应 本 进程 发 送 的 数据 报 产 生 的 还 是 出 于 啊 应 其 他 traceroute 
进程 发 送 的 数据 报 产生 的 ， 我 们 为 此 使 用 UDP 首部 的 源 端 口 字 段 标 识 发 
送 进程 ， 因 为 返 送 的 ICMP 出 错 消 息 必 须 包含 引发 该 ICMP 错 误 的 那个 
UDP 数据 报 的 首部 。 


建立 SIGALRM 的 信号 处 理 函 数 





























26 ”为 STGALRM 信 号 建立 信号 处 理 函 数 〈sig_alrm) ， 因 为 每 发 送 一 
个 探测 分 组 之 后 ， 我 们 为 接收 ICMP 消 息 等 待 3 秒 钟 ， 然 后 才 发 送 下 一 个 
探测 分 组 。 


EGA: 设置 TIL 或 跳 限 并 发 送 3 个 探测 分 组 


27-38 ”本 函数 的 主 循环 是 藤 套 的 两 个 for 循 环 。 外 层 循环 从 TTL 或 
跳 限 为 1 开始 ， 每 循环 一 次 加 1， 内 层 循环 则 为 每 个 TIL 或 跳 限 值 向 目的 
地 发 送 3 个 探测 分 组 (UDP 数据 报 ) 。 每 当 TTL 或 跳 限 值 发 生变 化 时 ， 
我 们 就 使 用 套 接 字 选项 ITP_TTL 或 TIPv6_UNICAST_HoPS 为 外 出 探测 分 组 设置 
新 值 。 





外 层 循 环 每 一 轮 开始 时 ， 我 们 把 由 salast 成 员 指 癌 的 套 接 字 地 址 结 
构 初 始 化 成 0。 每 当 读 入 一 个 ICMP 消 息 时 ， 该 结构 将 与 由 recvfrom 返 回 
的 套 接 字 地 址 结构 作 比 较 ， 如 果 两 者 不 一 致 ， 那 就 把 后 者 复制 到 前 者 ， 
并 显示 取 目 后 者 的 耳 地址。 使 用 这 个 技巧 可 以 做 到 : 对 每 个 TTL 都 显示 
响应 第 一 个 探测 分 组 的 下地 址 ， 要 是 对 于 某 个 给 定 TIL 值 这 个 了 P 地 址 发 
生变 化 ( 壁 如 说 就 在 我 们 运行 本 程序 期 间 某 个 路 径 出 现 变 动 ) ， 那 么 新 
的 IP 地 址 也 被 显示 。 


设置 目的 端口 并 友 送 UDP 数 据 报 


39-40 ”在 发 送 每 个 探测 分 组 之 前 ， 调 用 我 们 的 soct_set_port 函 数 
修改 sasend 成 员 指 癌 的 套 接 字 地 址 结构 中 的 目的 端口 。 为 每 个 探测 分 组 
更 改 目 的 端口 的 理由 是 : 当 这 些 探测 分 组 到 达 最 终日 的 地 时 ， 所 有 3 个 
探测 分 组 被 发 送 到 不 同 的 端口 ， 我 们 但 愿 其 中 至 少 有 一 个 未 在 使 用 中 。 
探测 分 组 (UDP 数据 报 ) 调用 sendto 发 送 。 


757—761 











读 入 ICMP 消 息 


41-42 ”通过 使 用 recv_v4 和 recv_v6 这 两 个 函数 之 一 调用 recvfrom 读 
入 并 处 理 返 送 的 ICMP 消 息 。 这 两 个 函数 在 发 生 超 时 时 返回 -3〈 如 果 尚 
未 为 当前 TIL 值 发 送 3 个 探测 分 组 ， 那 么 该 返回 值 是 在 告知 我 们 要 发 送 
另 一 个 探测 分 组 ) ， 在 收 到 一 个 ICMP“time exceeded in transit” 错 误 时 返 
回 -2， 在 收 到 一 个 ICMP“port unreachable” 错 误 时 返回 -1 (意味 着 探测 分 
组 已 经 到 达 最 终 目 的 地 ) ， 在 收 到 某 个 其 他 代码 的 ICMP 目 的 地 不 可 达 





| 


错误 时 返回 某 个 非 负 的 ICMP 代 码 值 。 
应 答 


43~63 ”如 前 所 提 ， 如 果 所 读 入 的 ICMP 消 息 是 某 个 给 定 TTL 值 的 第 
一 个 应 答 ， 或 者 就 当前 TTL 值 而 言 发 送 应 答 〈ICMP 消 息 ) 的 节点 卫 地 址 
发 生 了 变化 ， 我 们 就 显示 应 答 发 送 主机 的 主机 名 和 IP 地 址 ( 若 
getnameinfo 不 返回 主机 名 则 只 显示 IP 地 址 ) 。 作 为 探测 分 组 发 送 时 刻 和 
相应 应 答 (ICMP 消 息 ) 收取 时 刻 的 时 间 差 计算 并 显示 RTT。 
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trocenotiteirecv v.c 
1 #include 'Lracg.L" 


2 extern irt dgctalarm; 


3 /* 

4 + Return: -3 on timcout 

5 * -2 ou ICM? ciwe exceeded in transit [caller keeps going! 
e * -1 on ICM» port unreechable (callsr is done} 

7 8 >= U return value if come other ICMP unreachable code 
9g 87 

9 int 

10 recv vé(int sez, struc- timeval tv} 

Yd 

12 int hlenl, hlen2, icmplen, ret; 

13 sccklen t ler: 

14 $5-20 t n; 
15 struct ip *ip, *hip; 
16 struct icmp *icme; 
17 struct udphdr “udp; 

18 gctalarm = 0; 
19 alarmí(2!; 
20 for ( ;; ») 1l 
21 if (get alarnl 
22 return(-a); /* alarm expires? 4/ 
23 ler = pressalen; 

24 n = recvfren(reevfd, recvouf, sizeof (reevbuf), 0. pr-ssarecv, &len): 


25 it (n < 0) í 


26 if le-crno == EIMNTR) 


7 continue; 

28 else 

29 err sysj"recvfrou error"); 

5n ) 

ip - (struct ip *! recvbuf; /* start of IP header */ 

32 hient = ip-»ip hl «e 2: /* length of IP header */ 

33 icmp = (Struct icwp *) [rccvbuf + Alenil; /* start CE icv header v/ 
34 if | (icmpler = n - hlenl! < &) 

35 cent ime; /* not enough tc look at ICME header */ 
35 if (icnp-»icmp type -- ICM>_TIMACESD ká 

37 icrp-»icmp code ==- ICMP TIMXCEED INTRANS) | 

38 if (iemplen < A + sizenfisreuct ipll 

39 zcntinue; /* not enough data to lock at inrer ip */ 
40 hip - (siruct ip #) (rwcevbut + hlenl + 3); 

41 klen? = nip->ip hl «« 2; 

e if ticmplen < 8 + hlene 4 i! 

43 ccentinmue, /* rot enough data tc look at UDP porte */ 
24 udp = (struct udphdr *} (recvba= + hlenl = 5 + zlen2!: 

45 if !nip-»ip p <= IFPROTO_UDP && 

46 udp-»uh sport =-= htons(sport) && 

7 udp-»4h dpert sz nrens(dport + sey) / 

4B ret s -2; /* we hit an intermediate router */ 

49 break: 

50 } 

51 } else it [iemp->icmp_type == ICMD_UNRZACH) [ 

53 if ticmplen < 8 + sizecf!struct ip)! 

53 zont inue; /* not euough dela Lc look aL iimw IP 4/ 
54 hip = (ctruct ip *! :recvbuz 1 hlenl 1 8!; 

55 hlenz = nip-»ip hl << 23: 

55 if iicwplen « 8 + hlen2 + 4) 

51 zentiaue; /* not enough data to look at UDP ports */ 
55 udp = (si.rucL udpudz 4) Icecvb + hleni = 5 + Llen2!; 

59 if (hip-sip_p == TFPROTO_IMP && 

60 uép »uüh sport == ntona(sport) ss 

61 udp-»uh dport == htens(d@port + seq)) : 

62 it |icmp-siemo code -- ICMP RIREACH ?OPT! 

63 ret = -lj /* have reached deotinacion */ 

64 DE 

65 ret = iemp-»icmp code; /* Di 17 2, ... */ 

66 break; 

7 } 

68 } 

69 if (verbose) [ 

7 pr-ntf(" (from $s: type = $d, code = Sd!qn', 

Z Sock_ntop_host (pr-scarecy, pr->salent, 

72 iczwp-»icmp tvpse, icmp->icnp_code) : 

73 } 

74 ; /* Scme other ICMP error, recvirom() acain */ 

75 

765 alarmt0) ; /* don't leave alarm Timm ng */ 

"2 Ccttircofday (tv, NULL); /* qct tine of packet arrival */ 

78 return {ret}; 

79 | 


fraceronte/recy. vd c 


图 28-20 recv v4 ZR: 读 入 并 处 理 ICMPv4 消 息 


设置 报警 时 钟 并 读 入 每 个 ICMP 消 息 


19-30 ”设置 一 个 3 秒 钟 的 报警 时 钟 后 进入 一 个 调用 recvfrom 的 循 
环 ， 以 读 入 返 送 到 原始 套 接 字 的 所 有 ICMPv4 消 息 。 


本 函数 使 用 一 个 全 局 标志 在 相当 程度 上 避免 了 我 们 在 20.5 节 讲解 过 
的 竞争 状态 。 





762~763 
获取 ICMP 首 部 指针 
31-35 ”ip 指 向 IPv4 首 部 的 开始 位 置 (回顾 一 下 ， 在 原始 套 接 字 上 


的 读 入 操作 总 是 返回 卫 首 部 ) ，icmp 则 指向 ICMP 首 部 的 开始 位 置 。 图 
28-21 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 指 针 和 长 度 。 


n 


icmplen 


klen1 hlen2 
He 








[Pyaik 项 
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图 28-21 处理 ICMPv4 错 误 涉 及 的 首部 、 指 针 和 长 度 
处 理 ICMP 传 输 中 超时 错误 


36-50 ”如 果 所 读 入 的 ICMP 消 息 是 一 个 “time exceeded in transmit” HH 
音 消息 ， 那 么 它 可 能 是 啊 应 本 进程 某 个 探测 分 组 的 应 答 。hip 指 向 在 这 
个 ICMP 消 轧 中 返回 的 IPv4 首 部 ， 它 跟 在 8 字 节 的 ICMP 首 部 之 后 。udp 指 
向 跟 在 这 个 IPv4 首 部 之 后 的 UDP 首部 。 如 果 该 ICMP 消 息 是 由 某 个 UDP 
数据 报 引 起 的 ， 而 且 这 个 UDP 数据 报 的 源 端口 和 目的 端口 确实 是 本 进程 
发 送 的 值 ， 那 么 它 是 来 目 某 个 中 间 路 由 器 的 啊 应 我 们 的 探测 分 组 的 一 个 


ME. 
处 理 ICMP 端 口 不 可 达 错 误 


51-68 如果 所 读 入 的 ICMP 消 息 是 一 个 “destination unreachable” 出 错 











WE, dd gu UE EXC ICMPIBETBIRIBIBJUDPTO. AUI 
啊 应 本 进程 某 个 探测 分 组 的 应 答 。 在 这 个 ICMP 消 明确 实 是 啊 应 本 进程 
某 个 探测 分 组 的 应 答 这 一 前 提 下 ， 如 果 它 的 ICMP 代 码 为 “port 
unreachable”， 那 就 返回 -1， 因 为 其 探测 分 组 已 经 到 达 最 终 目 的 地 ， 否 则 
就 返回 它 的 ICMP 代 码 值 。 后 者 的 常见 例子 之 一 是 由 某 个 防火 墙 为 我 们 
探测 的 目的 主机 返回 一 个 其 他 不 可 达 代 码 。 


处 理 其 他 ICMP 消 息 
69~73 ”如 果 用 户 指 定 了 -v 命 令 行 选项 ， 那 就 显示 所 有 其 他 ICMP 消 
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764 


下 一 个 函数 recv_v6 由 图 28-24 给 出 ， 它 是 刚才 讲解 的 函数 的 IPv6 等 
价 函 数 。 它 与 recv_v4 几 近 相 同 ， 不 过 使 用 不 同 的 常 值 名 和 结构 成 员 
名 。 此 外 ， 从 IPv6 原 始 套 接 字 收取 的 数据 不 包括 IPv6 首 部 和 任何 扩展 首 
部 ， 对 于 我 们 的 原始 ICMPv6 套 接 字 而 言 ， 所 收取 的 数据 一 开始 就 是 
ICMPv6 首 部 。 图 28-22 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 指 针 和 长 度 。 


icmp6len 








TCMPv6 
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i cmp6 hip6 udp 


m 产生 ICMP 错 误 的 IPv6 数 据 报 








图 28-22 “处理 ICMPv6 错 误 涉 及 的 首部 、 指 针 和 长 度 











我 们 额外 定义 了 两 个 函数 icmpcode_v4 和 icmpcode_v6， 它 们 可 以 从 
traceloop 函 数 末 尾 作为 printf 的 参数 调用 ， 以 显示 与 CMP 目 的 地 不 可 


达 类 型 错误 某 个 具体 代码 对 应 的 描述 串 。 图 28-25 给 出 了 其 中 的 IPv6 函 
数 。IPv4 函 数 与 之 类 似 ， 不 过 稍 长 些 ， 因 为 ICMPv4 目 的 地 不 可 达 类 型 
错误 有 更 多 的 代码 (图 A-15) 。 


我 们 的 traceroute 程 序 的 最 后 一 | 国 数 是 SIGALRM 言 写 的 处 理 函 数 ， 
即 由 图 28-23 给 出 的 sig_alrm 函 数 。 该 图 数 所 做 的 仅仅 是 返回 ， 
使 recv_v4 或 recv_v6 中 已 阻塞 的 recvfrom 调 用 被 中 ll, 从 而 返回 EINTR 错 
误 。 





tracerotte/sig alrm.c 





1 includes "trace hh" 
2 in- cotalarm; 
3 void 
4 sig alr u(inL s gno) 
> f 
4 gozalam = 1; /* set flag to note that alarm occurred */ 
7 rpe-urr; /* and interrupt the recviren() 4/ 
3} 
Meceraulesiz alrm.c 
图 28-23 sig alrmPK ži 
trecerouterrecy_v6.c 
1 Hiuclude "Lrace.h* 


2 sxtern int gotalarm; 


3 /* 

4 + Return: 3 on timccut 

5 +t -2 cm TOMP time exceeded in transit [caller keeps going) 
6 * -1 cn ICNP port unreachable (caller is done! 

4 * >= J return value is ecme other INME unreachable code 
8 «f 

S in 

10 recy vé(inc seq, struct timeval *zv! 

14. 4 

12 $ifdef  IPVG 

13 int hien2, iompélen, ret; 

14 seize t n; 

15 Sockler t len; 

16 struct ip6 hdr *hip6: 

17 struct irmpá hdr *icmpé; 

lë struct udpnrdr *udp; 
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19 gotalarm « 7, 


2U alarwis)r 
21 foe ( 5 +} | 
22 if (gotalarm; 
23 retumi-3); /* alarm cxpircd */ 

24 len = pr-ssaler; 

25 n a Tecvérom(recvfs, vrecvtt, aizeotlrecvbuf), 0, pr-ssarecy, wen); 
26 if m<) { 

7 if {wiril =- EIKTR) 

2n continue; 
29 éise 

30 err_sys("reçvfrom ərror"); 

31 } 

32 icmpt = (struct iempé ndr *) recvbuž; /* IQP header */ 
3 if ( | domelen = n ) < 8) 

34 conc Laue: /? mot engugh co look at IOMP leader ^/ 
an if Cempé-siemp type == TOMPG T-ME REKCERDZD Rà 

35 icwp6-»icmpo coce == ICMP6 'CIM3 EXCEED TRANSIT) | 

7 if (icmzélen < 3 + sizect {struct iv hdr) + 4) 

3A canl inue; /? nob eniiagh. Gata to loos at inner header */ 
39 h:p6 = (struct ip6 hdr *) (recvbut + 6); 

AY h.en3 = sizeof (Etruct ipe zdr); 
41 wip = (struct vLéphdzr 4) (recvhuf + 8 + hler2); 
42 if (hiní-»ipG rst -- IPFROTO ID? && 

45 Vip »uh Sport == htcnsispors) Sa 
44 wlp--uh dport == htomsidpor_ + sey)! 
45 ret = -2; /* we nit an intermediate router */ 
45 break: 

1 } else if (icmps-sicrpi type -- Zope LST UNRBACH) | 

45 if fiempélen < 8 4 sizecfistruct. ipf_hir) + 4) 

49 continue: /* not enough Gata to look at innzr header */ 
bu hipe = (struct ipe hdr *) (recvbuf + E)r 

51 hie? ~ sizeof (struct ipé udr); 

52 udp — (atruct LGphd *) (reevbuf + B + hler2); 

53 if (hios-»ip6 rxt «= IPLROTO UDE && 

54 udp-»uh sport == htcnsispor-; && 

55 udp-»uh dport == htensidpor= + seq)! { 

56 if (icmpé-»icmps code «= ICMP& DST UNEEACH NOPORZ) 
? ret - -1: /^ have reached destination */ 

SA elas 

59 rct = isrpë >icmpe cods; ft50 Ly X ice. SF 
60 Lreak; 

61 

3 } elce i= (verbose) i 

63 prirtfi(" {from ts: type = id, code = $1Ó)'n", 

64 Sock ntop host (pr-saarecy, pr-s*alen], 

65 icmp6 »icmpz type. icnp5- »icmpt code]; 

66 } 

7 /* Sone other ICMP errar, recvfrow() again */ 

68 

68 alarm.;0): /* don't leave alarm running */ 
70 Gettineotday(tv, MULL); /* get time of packet arrival */ 
"1 return iret); 

73 endif 

75 | 


dracercufe/recv vá c 


[28-24 recv verR A: 读 入 并 处 理 ICMPv6 消 息 





fracerouteficmpoode_v6.c 
1 H-uüclude "trace.h" 


const char 4 


2 
3 icmpcode vóolint coda) 
4 
5 


{ 


WH fdef  TPV6 


6 static char arrbuf [100] ; 

/ switch [code) | 

B case ICMPS DST UNREACH NOROUTE: 

9 reLurn("un rouLs Lo hust*!; 
LO case ICMPS DST UNSEACH ADMIN: 
11 return("adminictratively prohibites") ; 
12 case ICMPS DST UNREACIL NOTNEIGIBOR: 
13 rerurn(*"nnt a neighror"); 
14 case ICMP3 UST UNREACH ADDE: 
15 return ("address urrcachablc'"); 
1€ case ICMPS DST UNREACH NOPORT 
17 return ("port unreachahle"; 
1s default 
19 sSprintf!erzbuf. "lunknown code *dj", code); 
20 return errbuf; 
21 } 
za tendif 
23 ] 


tracerouteAicmpcode v6.c 
图 28-25 ”返回 对 应 于 某 个 ICMPv6 不 可 达 代 码 的 描述 串 
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例子 
我 们 先 给 出 使 用 IPv4 的 例子 ， 其 中 对 过 长 的 输出 行 做 了 折 行 处 理 。 


freebsd % traceroute www.unpbook. com 
traceroute to www.unpbook.com (206.168.112.219): 30 hops max, 24 data bytes 
12.106.32.1 (12.106.32.1) 0.799 ms 0.719 ms 0.540 ms 
12.124.47.113 (12.124.47.113) 1.758 ms 1.760 ms 1.839 ms 
gbr2-p27.sffca.ip.att.net (12.123.195.38) 2.744 ms 2.575 ms 2.648 ms 
tbr2-p012701.sffca.ip.att.net (12.122.11.85) 3.770 ms 3.689 ms 3.848 ms 
gbr3-p50.dvmco.ip.att.net (12.122.2.66) 26.202 ms 26.242 ms 26.102 ms 
gbr2-p20.dvmco.ip.att.net (12.122.5.26) 26.255 ms 26.194 ms 26.470 ms 
gar2-p370.dvmco.ip.att.net (12.123.36.141) 26.443 ms 26.310 ms 26.427 ms 
att-46.den.internap.ip.att.net (12.124.158.58) 26.962 ms 27.130 ms 
27.279 ms 
9 borderi0.ge3-0-bbnet2.den.pnap.net (216.52.40.79) 27.285 ms 27.293 ms 
26.860 ms 
10 coop-2.borderi0.den.pnap.net (216.52.42.118) 28.721 ms 28.991 ms 
30.077 ms 
11 199.45.130.33 (199.45.130.33) 29.095 ms 29.055 ms 29.378 ms 
12 border-to-141-netrack.boulder.co.coop.net (207.174.144.178) 30.875 ms 
29.747 ms 30.142 ms 
13 linux.unpbook.com (206.168.112.219) 31.713 ms 31.573 ms 33.952 ms 


ONOORWBNE 


BRE d SEHIPVORS PIT, RREK h FT ULIS T ITTE. 


freebsd % traceroute www.kame.net 
traceroute to orange.kame.net (2001:200:0:4819:203:47ff:fea5:3085): 
30 hops max, 24 data bytes 
1 3ffe:b80:3:9ad1::1 (3ffe:b80:3:9ad1::1) 107.437 ms 99.341 ms 103.477 ms 
2 Viagenie gw.int.ipv6.ascc.net (2001:288:3b0::55) 
105.129 ms 89.418 ms 90.016 ms 
3 gw-Viagenie.int.ipv6.ascc.net (2001:288:3b0::54) 
302.300 ms 291.580 ms 289.839 ms 
4 c7513-gw.int.ipv6.ascc.net (2001:288:3b0::c) 
296.088 ms 298.600 ms 292.196 ms 
5 m160-c7513.int.ipv6.ascc.net (2001:288:3b0::16) 
296.266 ms 314.878 ms 302.429 ms 
6 m20jp-mi60tw.int.ipv6.ascc.net (2001:288:3b0::1b) 
327.637 ms 326.897 ms 347.062 ms 
7 hitachii.otemachi.wide.ad.jp (2001:200:0:1800::4:2) 
420.140 ms 426.592 ms 422.756 ms 
8 pc3.yagami.wide.ad.jp (2001:200:0:04::1000:2000) 
415.471 ms 418.308 ms 461.654 ms 
9 gr2000.k.wide.ad.jp (2001:200:0:8002::2000:1) 
416.581 ms 422.430 ms 427.692 ms 
10 2001:200:0:4819:203:47ff:fea5:3085 (2001:200:0:4819:203:47ff:fea5:3085) 
417.169 ms 434.674 ms 424.037 ms 
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28.7 “一 个 ICMP 消 息 守 护 程序 


在 UDP 套 接 字 上 接收 异步 ICMP 错 误 〈 即 ICMP 出 错 消息 ) 一 直 以 来 
都 是 一 个 问题 。ICMP 错 误 由 内 核 收 取 之 后 很 少 被 递送 到 需要 了 解 它 们 
的 应 用 进程 。 在 套 接 字 API 中 我 们 已 经 看 到 收取 这 些 错误 要 求 把 UDP 套 
接 字 连接 到 某 个 IP 地 址 (8.11 节 〉 。 如 此 限制 的 原因 在 于 ， 能 够 
由 recvfrom 返 回 的 错误 信息 仅仅 是 一 个 errno 整 数 代 码 ， 如 果 一 个 应 用 
进程 在 向 多 个 目的 地 发 送 数 据 报 之 后 调用 recvfrom， 那 么 该 函数 难以 告 
知 应 用 进程 到 底 是 哪个 数据 报 引 发 了 一 个 错误 。 鱼 


我 们 将 在 本 节 给 出 无 需 改 动 内 核 的 另 一 个 解决 办 法 。 我 们 将 提供 一 
个 名 为 icmpd 的 ICMP 消 息 守 护 程序 ， 它 创建 一 个 ICMPv4 原 始 套 接 字 和 
一 个 ICMPv6 原 始 套 接 字 ， 接 收 内 核 传 递 给 这 两 个 原始 套 接 字 的 所 有 
ICMP 消 息 。 它 还 创建 一 个 Unix 域 字 市 流 套 接 字 ， 把 路 径 名 /tmp/icmpd 
捆绑 在 其 上 ， 然 后 在 这 个 套 接 字 上 监听 针对 该 路 径 名 的 外 来 客户 连接 。 
图 28-26 展 示 了 icmpd 创 建 的 这 3 个 套 接 字 。 


监听 Unix 域 字 节 流 套 接 字 ， 
绑 定 /tmp/icmpa 





















原始 套 接 字 | .原始 套 接 字 
/ \ 
/ \ 
/ X 
/ \ 
/ \ 


ICMPv4 





ICMPv6 














[28-26 icmp F PEJE: 初始 创建 的 套 接 字 


作为 icmpd 和 守护 进程 的 客户 ， 一 个 UDP 应 用 进程 首先 创建 它 自身 的 
UDP 套 接 字 ， 该 套 接 字 也 是 它 布 望 为 之 接收 卉 步 错误 的 套 接 字 。 该 应 用 
进程 必须 捆绑 一 个 临时 端口 到 这 个 UDP 套 接 字 ， 其 原因 我 们 稍 后 讨论 。 
接着 它 创 建 一 个 Unix 域 字 节 流 套 接 字 ， 并 把 该 套 接 字 连 接 到 icmpd 的 众 
所 周知 路 径 名 (/tmp/icmpd〉。 图 28-27 展 示 了 此 时 的 情形 。 
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图 28-27 ”应 用 进程 凶 








c 








建 自身 的 UDP 套 接 字 和 到 icmpd 的 Unix 域 连接 


该 应 用 进程 然后 使 用 我 们 在 15.7 节 讲解 过 的 描述 符 传 递 机 制 通 过 这 
个 Unix 域 连接 把 它 的 UDP 套 接 字 “传递 ”给 icmpd。icmpd 于 是 得 到 这 个 套 
接 字 的 一 个 副本 ， 从 而 可 以 调用 getsock-name 获 取 绑 定 在 这 个 套 接 字 上 
的 端口 号 。 图 28-28 展 示 了 这 个 套 接 字 传递 过 程 。 
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图 28-28 ”应 用 进程 跨 Unix 域 连接 把 UDP 套 接 字 传递 给 icmpd 





icmpd 3k BU XE CE AB-S UDP B B^: EmO S KA BS 
的 本 地 副本 ， 它 和 应 用 进程 的 关系 于 是 恢复 到 图 28-27 所 示 的 情形 。 

如 果 主 机 支持 和 凭证 传递 (15.8 节 〉 ， 访 应 用 进程 也 可 以 把 它 的 凭证 
发 送 给 icmpd， 以 便 icmpd 检 查 是 否 允 许 该 进程 的 属 主 用 户 访问 本 异步 错 
误 返 回 机 制 。 

从 此 时 起 ，icmpd 一 旦 收取 由 该 应 用 进程 通过 绑 定 在 它 的 UDP 套 接 
字 上 的 端口 发 送 的 UDP 数据 报 所 引发 的 任何 ICMP 错 误 ， 束 通过 Unix 域 
连接 辐 该 应 用 进程 发 送 一 个 消息 〈 我 们 稍 后 讲解 该 消息 ) 。 访 应 用 进程 
因此 必须 使 用 select 或 po11， 等 待 它 的 UDP 套 接 字 和 Unix 域 套 接 字 中 任 
何 一 个 有 数据 到 达 而 变 为 可 读 。 

下 面 我 们 首先 查看 使 用 icmpd 的 一 个 应 用 程序 ， 然 后 查看 icmpd 守 护 
QUSE PN 它 是 应 用 程序 和 icmpd 守 护 程序 都 

含 的 头 文件 。 
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fempa/unpicmpa. hi 
1 #ifmief — unpicr * 
4 fdezTins — vnpicmp a3 
3 fincluze "urp.h" 
4 #dcfinc ICMPD_PATH "/tmp/icned" /* server's woll known pathname */ 


5 struct icnod e-r { 
所 izt icnpd erroa; /* EHOSTUNRRATH, FNSGSIZE, ECONMRERUSET */ 


7 caar icwmpd type: /* actual ICMPv[45] type */ 

6 char icwpi code; /* actual ICMPvI4s1] code */ 

9 sccklen t icupd_len; /* length of sockaddr(] that follows */ 
10 struct sockar storage iempd_desr;/* sockaddr storage handles any sizer; 
Sh SF 


12 #endif /* _ unpicmp h */ 
inpa/unpicmpd.h 
图 28-29  unpicmpd.h3l Xx fF 


4-11 定义 icmpd 的 众所周知 路 径 名 以 及 由 icmpd 传 递 给 应 用 进程 的 
icmpd_err 结 构 。icmpd 一 旦 收 到 一 个 必须 传递 给 某 个 应 用 进程 的 ICMP 消 
IL PES — | icmpd_err 结 构 给 这 个 应 用 进程 。 

6-8 ”问题 是 ICMPv4 消 息 类 型 和 ICMPv6 消 息 类 型 在 数值 上 (有 了 时 


甚至 在 概念 上 ) 存在 差异 (图 A-15 和 图 A-16); 。 除 了 返回 真正 的 ICMP 
类 型 值 和 代码 值 外 ， 我 们 还 把 它们 映射 成 一 个 errno 值 (icmpd_errno 成 


员 ) ， 类 似 图 A-15 和 图 A-16 的 “处 理 者 或 errno” 栏 。 应 用 进程 可 以 直接 处 
理 这 个 errno 值 ， 以 取代 处 理 协 议 相 关 的 ICMPv4 或 ICMPv6 值 。 图 28-30 
给 出 了 icmpd 处 理 的 ICMP 消 息 类 型 以 及 它们 的 errno 映 射 值 。 









ICMPv4 错误 ICMPv5 错误 
de OANA AA 
134) Hr (8 DF ME R 
EM 
M s K 
i 有 其 他 目的 地 不 可 达 代 码 


端口 不 可 这 
分 组 过 六 
超时 






R3OSTUNRRRCH 





EHOSTUNREACH 所 有 其 他 目的 地 不 可 达 代 三 


图 28-30 ”从 ICMPV4 和 ICMPv6 错 误 映 射 到 icmpd_errno 


icmpd 返 回 5 种 类 型 的 ICMP 错 误 。 


OAA (port unreachable) ， 指 示 在 目的 耳 地 址 上 没有 绑 定 目 
的 端口 的 套 接 字 。 
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分 组 过 大 (packet too big) ， 用 于 MTU 发 现 。 目 前 尚未 定义 允许 
UDP 应 用 进程 执行 路 径 MTU 发 现 的 API。 在 对 UDP 提供 路 径 MTU 发 
现 文 持 的 内 核 上 通常 发 生 如 下 情形 ， 该 ICMP 错 误 的 收取 导致 内 核 
把 其 中 携带 的 路 径 MTU 新 值 记 录 在 目 身 的 路 由 表 中 ， 但 是 不 通知 
所 发 送 数据 报 因 此 被 网 络 丢 弃 的 那个 UDP 应 用 进程 。 该 应 用 进程 必 
须 超时 并 重 传 该 数据 报 ， 这 种 情况 下 内 核 将 在 自 吴 的 路 由 表 中 找到 
新 的 《而且 是 更 小 的 ) MTU 值 ， 于 是 照 此 对 该 数据 报 执行 分 片 。 
要 是 内 核 把 这 个 ICMP 错 误 传 递 回 该 应 用 进程 ， 它 束 不 仪 能 够 更 早 
地 重 传 这 个 被 网 络 而 不 是 被 目的 地 丢弃 的 数据 报 ， 而 且 有 可 能 应 用 
其 中 携带 的 路 径 MTU 新 值 自行 降低 待 发送 数据 报 的 大 小 。 

超时 (time exceeded) ， 本 ICMP 错 误 类 型 常见 的 代码 为 0， 表 示 
IPv4 的 TIL 或 IPv6 的 跳 限 已 到 达 0 值 。 本 错误 往往 表征 出 现 路 由 循 
环 ， 因 而 也 许 是 一 个 暂时 性 的 错误 。 

ICMPv4JSAS (source quench) ， 尽 管 RFC 1812 [Baker 1995] kz 
对 使 用 本 ICMP 错 误 ， 路 由 器 《或 误 配 成 用 作 路 由 器 的 主机 ) 仍 可 
能 上 及 送 它们 。 本 ICMP 错 误 指 示 某 个 分 组 已 被 丢弃 ， 因 此 我 们 像 处 














理 目的 地 不 可 达 错 误 那 样 处 理 它们 。 注 意 IPv6 没 有 源 熄灭 错误 。 
。 所 有 其 他 目的 地 不 可 达 错 误 指 示 肥 个 分 组 已 被 丢 痉 。 


10 icmpd_dest 成 员 是 一 个 套 接 字 地 址 结构 ， 用 于 存放 引发 本 ICMP 
错误 的 那个 数据 报 的 目的 IP 地 址 和 目的 端口 。 该 成 员 既 可 为 IPv4 的 
sockaddr_in 结 构 ， 也 可 为 IPv6 的 sockaddr_in6 结 构 。 如 果 应 用 进程 往 多 
个 目的 地 发 送 数据 报 ， 那 么 每 个 目的 地 都 有 一 个 这 样 的 套 接 字 地 址 结 
构 。 通 过 以 一 个 套 接 字 地 址 结构 返回 目的 人 P 地 址 和 端口 信息 ， 应 用 进程 
可 以 将 它 和 上 自己 的 各 个 结构 相 比 较 ， 从 而 找 出 导致 错误 的 那个 结构 。 这 
个 sockaddr_storage 结 构 ， 能 容纳 系统 文 持 的 任何 套 接 字 地 址 结 


28.7.1 ”使 用 icmpd 的 UDP 回 射 客户 程序 


我 们 现在 把 UDP 回 射 客户 程序 的 dg_cli 函 数 改 为 使 用 我 们 的 icmpd 
守护 程序 。 图 28-31 给 出 了 该 函数 的 前 半 部 分 





icmicddecliül.c 
1 #include "uupicmpd.Hh" 
2 void 
3 2g cli(FILZ *fp, int sockfd, const SA *“pservaddr. sock:sn t servlen! 
a4 
5 int icrmp£d, maxfdpi; 
6 char seudlineíMAXLINR., recvline (MAXLINE + 1]; 
) fd set reat; 
8 osgizco t n: 
9 struct timeval zv; 
10 struct icmod_err icmpd err: 
lı struct sockaddr un suni; 
m Sock bind wWild(soc«fá, pservaddr-ssa family) ; 
l3 icmpfd ~ Sceket [AF LOCAL, SOCK STREAM, 0): 
14 eun.cun_family = AF LOCAL; 
15 strcpyísun.sun pata, ICMPD PATH) ; 
16 Connectí(icmpfd, (SA *)&sur, sizeof!isun)!; 
17 Wrice fd(icmpfód, "L', l, &ockfd); 
18 n = Readiicmpfd, reevline, 1]; 
19 if (n ! 1 | recvlime[O] != *1') 
20 srr quit('error creating icmp socket, r = td, char = $c", 
21 n, recvline[u:.); 
22 FD ZERO(&TSet); 
23 maxfdpl = maxisockfd, iempfd) 1; 


icmd/dachiül.c 


[28-31 dg_cli 函 数 前 半 部 分 


Qm 这 个 版 本 的 dg_cli 函 数 有 与 它 的 所 有 先前 版 本 同样 的 函数 参 





捆绑 通 配 地 址 和 临时 端口 


i2 ”调用 我 们 的 sock_bind_wild 函 数 把 通 配 耳 地 址 和 一 个 临时 端口 
捆绑 到 UDP 套 接 字 。 这 么 做 使 得 稍 后 传递 给 icmpd 的 那个 本 套 接 字 的 副 
本 有 一 个 绑 定 的 端口 ， 因 为 icmpd 需 要 知道 这 个 端口 。 


如 果 icmpd 收 取 的 本 套 接 字 副本 未 曾 绑 定 一 个 本 地 端口 ， 那 么 该 守 
护 进 程 也 可 以 执行 这 样 的 捆绑 ， 不 过 这 种 做 法 并 非 在 所 有 环境 中 都 行 之 
有 效 。 在 SVR4 实 现 〈 璧 如 Solaris 2.5) 中 套 接 字 并 不 是 内 核 的 一 部 分 ， 
在 一 个 进程 把 一 个 端口 捆绑 到 某 个 共享 的 套 接 字 上 之 后 ， 拥 有 这 个 套 接 
字 的 一 个 副本 的 其 他 进程 会 在 试图 使 用 该 套 接 字 时 倍 到 奇怪 的 错误 。 最 
Cie ee ere earn eee 
端口 。 


与 icmpd 建 立 Unix 域 连接 
13-16 ”创建 一 个 AF_LOCAL 套 接 字 ， 并 connect 到 icmpd 的 众所周知 路 





径 
把 UDP 套 接 字 发 送 给 icmpd 并 等 待 它 的 应 答 


17~21 调用 我 们 的 write_fd 函 数 ( 图 15-13) 把 本 UDP 套 接 字 的 一 
个 副本 发 送 给 icmpd。 我 们 还 发 送 一 个 值 为 字符 “1” 的 单字 节 普 通 数 据 ， 
因为 有 些 实现 不 会 在 没有 任何 普通 数据 的 条 件 下 以 辅助 数据 的 形式 传递 
描述 符 。icmpd 通 过 发 送 回 一 个 值 为 字符 “1 的 单字 节 数 据 表 示 成 功 。 任 
何其 他 应 答 均 表示 发 生菜 个 错误 。 


22-23 ”初始 化 一 个 描述 符 集 ， 并 计算 select 的 第 一 个 参数 〈 两 个 
套 接 字 描 述 符 的 较 大 值 再 加 1) 。 

图 28-32 给 出 dg_cli 函 数 的 后 半 部 分 。 它 是 一 个 循环 : 从 标准 输入 
读 入 一 个 文本 行 ， 并 把 该 文本 行 友 送 给 服务 嚣 ， 然 后 读 入 来 目 服 务 器 的 
应 答 ， 并 把 该 应 答 写 出 到 标准 输出 。 
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icmpddecliül.c 





24 wile iFgetssenitine, MAXLINE. fp) := NULL) [ 

35 Serdto(scextd, sendlire, strlen(sendline), 0, pservaddr, servlen); 
x tv.tv cec = 5; 

2? tv.tv usec = 0; 

28 FD SET(szcxfüd, &rset!; 

E FD SET(icmzfá, rset); 

30 it [| (mn  Eclect(max-2pl, &rsoot, NULL, NULL, &tv!) == 0) { 

31 fprintf latæerr, 'sockst timeout"); 

32 cortinue; 

43 ) 

34 it (PD_ISSET(scekfd, srset}} ( 

35 n = RecvErom(sockfd, recvline. MAXLINE, 0, NULL, NULL); 

a6 pevcvl-re[n] = 0; /* mul] terminate */ 

37 Fprts;recvline, stdout); 

28 ) 

39 if (FD. ISSET(iempfd, Srset]) ( 

40 it ( in = Read(icupfd, &icmpd err, sizeofíicmpd err))) == 0) 
Lb "IT OO quit ("ICMP claemon terminated"); 

42 else if (n I= sizeof [icCrp3 err)! 

43 crr quit("n = td, cxpsected td", n, sizcot:'icmpd crr)]; 
44 printf ("ICMP error; dest = ts, ts, type = td. code = %d\n", 
45 Soek nop(&iempd err camp) cleesst ? icrpd err icmged len), 
ds strerroriicmpd err.icnpd errno}, 

47 icriod err.icmpd type, icmpd errz.icmzd code): 

46 ) 

49 

50 





icimpddecliül.c 


[28-32 ”dg_cli 函 数 后 半 部 分 





调用 select 

26-33 “既然 是 在 调用 select， 我 们 可 就 此 轻易 地 在 等 竺 来 自 回 射 
服务 器 的 应 答 上 设置 一 个 超时 。 我 们 把 超时 时 间 设 置 为 5 秒 钟 ， 打 开 两 
个 套 接 字 在 读 描述 符 集 中 对 应 的 位 ， 然 后 调用 select。 一 旦 发 生 超时 ， 
我 们 就 显示 一 个 消 恩 并 跳 转 到 循环 开始 处 。 
显示 服务 器 的 应 答 


34-38 ”如 果 服 务 器 返回 一 个 数据 报 ， 我 们 惑 把 它 显示 到 标准 输 





HH 
处 理 ICMP 错 误 


39-48 如果 到 icmpd 的 Unix 域 连接 变 为 可 读 ， 我 们 就 试图 读 入 一 
个 icmpd_err 结 构 。 如 果 读 入 成 功 ， 那 就 显示 由 icmpd 返 回 的 相关 信息 。 





strerror 是 移植 性 本 该 更 好 的 简单 函数 的 一 个 例子 。 首 先 ，ANSI C 
没有 就 该 函数 如 何 返 回 错误 给 出 任何 说 明 。Solaris 上 的 手册 页 面 说 ， 如 
D USER 该 函数 就 返回 一 个 空 指针 。 可 是 这 却 意 味 着 如 下 
RAY: 


printf("%s", strerror(arg)); 
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是 不 正确 的 ， 因 为 strerror 有 可 能 返回 一 个 空 指针 。 但 是 FreeBSD 
实现 以 及 作者 们 能 够 找到 的 所 有 其 他 源 代码 实现 都 把 无 效 参数 处 理 成 返 
回 一 个 指 同 诸如 “Unknown error 等 字符 串 的 指针 。 这 么 做 意思 清楚 ， 也 
使 得 上 述 代码 不 会 出 错 。 然 而 POSIX 又 作 了 改动 ， 指 出 由 于 没有 任何 返 
回 值 保 留用 于 指示 错误 ， 如 果 参 数 超出 有 效 范 围 ， 该 函数 束 把 errno 设 
置 为 EINVAL。 〈POSIX 未 就 出 错 情况 下 返回 的 指针 给 出 任何 说 明 。) 这 
就 意味 着 完全 符合 POSIX 的 代码 必须 先 把 errno 设 置 为 0， 再 调 
用 strerror 函 数 ， 然 后 测试 errno 值 是 否 等 于 EINVAL， 如 果 发 现 出 错 那 就 
显示 另外 某 个 消息 。 


28.7.2 UDP 回 射 客户 程序 运行 例子 


在 碍 看 icmpd 源 代码 之 前 ， 我 们 给 出 运行 本 客户 程序 的 一 些 例子 。 
首先 往 一 个 未 接 入 因特网 的 耳 地 址 发 送 数据 报 。 


freebsd % udpcli01 192.0.2.5 echo 
hi there 

socket timeout 

and hello 

socket timeout 








我 们 假设 icmpd 正 在 运行 ， 并 且 期 望 某 个 路 由 器 返 送 ICMP *host 
unreachable” 错 误 ， 不 过 没有 接收 到 任何 ICMP 错 误 ， 而 且 我 们 的 应 用 进 
程 发 生 超 时 。 我 们 给 出 这 个 例子 是 为 了 强调 超时 仍然 是 必需 的 ， 诸 
如 “host unreachable” 等 ICMP 出 错 消 息 的 产生 可 能 不 会 发 生 。 


我 们 的 下 一 个 例子 是 同一 个 不 在 运行 标准 echo 服 务 器 的 主机 发 送 目 
的 端口 为 标准 echo 服 务 器 的 数据 报 。 正 如 所 料 ， 我 们 会 收 到 一 个 
ICMPv4 “port unreachable” 错 误 。 


freebsd % udpcli01 aix-4 echo 


hello, world 
ICMP error: dest - 192.168.42.2:7, Connection refused, type - 3, code - 3 


我 们 使 用 IPv6 再 次 尝试 ， 也 如 愿 收 到 一 个 ICMPvV6 “port 
unreachable” 错 误 (我 们 对 过 长 的 输出 行 做 了 折 行 处 理 ) 。 


freebsd % udpcli01 aix-6 echo 
hello, world 
ICMP error: dest = [3ffe:b80:8d:2:204:acff:fe17:bf38]:7, 
Connection refused, type = 1, code = 4 


28.7.3 ”icmpd 守 护 进 程 


E 我 们 从 如 图 28-33 所 示 的 icmpd.h 头 文件 开始 讲解 我 们 的 icmpd 守 护 程 
T. 


iempadfcmpa.h 





1 £ircluce  "unpicmpd.h" 

2 struct clienz [ 

3 int connfd; /* Unix domain stream socket te client */ 

4 int family; /* AP INET cr A7 INDT6 ~/ 

5 int lsort; /* local cort bound to clicnt'a UD? socket */ 
€ /* network byte ordered */ 

7 ] client [FD_SETSIZE] ; 

L /* globals */ 


$ int fda, fdé, listenfa, maxi, maxid, nready; 
10 fà ser rset, a'lset; 
11 struct sockaddr un cliaddr: 


12 /* Zunction prototypes */ 
13 int readable _cenn/ int); 

14 int readable liscen!void!; 

15 int readsble v4 ivoid!; 

16 int readsbie v5 |void!; 


jempafiempa. 4 





图 28-33  icmpd Sf I fÉHFHJicmpd.hn3k3cfE 
client 数 组 


2~17 “既然 icmpd 能 够 处 理 任 意 数 目的 客户 ， 于 是 我 们 使 用 一 
个 client 结 构 数组 来 保存 关于 每 个 客户 的 信息 。 该 结构 数组 类 似 于 我 们 
在 6.8 节 所 用 的 数据 结构 。 除 了 到 每 个 客户 的 Unix 域 已 连接 描述 符 外 ， 
我 们 还 保存 该 客户 的 UDP 套 接 字 的 地 址 族 (AF_INET 或 AF_INET6) 以 及 绑 
jd E 口号 。 我 们 还 声明 各 个 函数 原型 以 及 由 它们 共享 的 
局 变量 。 
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图 28-34 给 出 main 函 数 的 前 半 部 分 。 





npa tcmpa.c 


1 &£ircluce "iempi.h* 

2 int 

3 main(int argc, cher **argu) 

4 { 

5 int i. sockfd; 

E N FK sockaddr oan Sun; 

aT if targe '= 1! 

t err suit ("usage: icmps*) ; 

S maxi = -1; /* index into rlient[] array */ 
16 fcr (i = 0; i e FD SXTSIZE: i++) 

11 cliert[-].connfü = -1; /* -1 indicates availahle entry */ 
12 FU_ZERO (47 Leet hy 

13 fd4 = Socket (AP_INET, SOCK_RAW, -PP3OTO ICOND): 

14 PD SET!zd1, Sallset); 

15 maxtd = tdd; 

16 &Rifde* IPV6 

1? fü& = Scoekel (AF_THETS, SOCK RAW, TPFROTÓ TCMPYR;, 3 
18 FZ SETi-d6, &allseL); 

19 maxfd = max(maxfd, fdé!; 

20 endif 

al listenfd = Sccket;AF UNIX, SOCK STREAM, Q!; 

da eun.cun_tamily = AF LOCAL; 

33 strcpy|sun.sun path, ICM»D PATH) ; 

a4 unlink! ICMPD PATH) } 

4s Bindilistentcd, (SA *)usun, sizeof (sini); 

26 Listenilistecf^, LIS'TEN)) ; 

27 F- SETilisternf2, sallset); 

28 maxfd = max(maxfd, listenfd): 





jcunpaicapa.c 





图 28-34 main 函数 前 半 部 分 创建 套 接 字 
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初始 化 client 数 组 
9-11 ”通过 把 已 连接 套 接 字 成 员 设 置 为 -1 初始 化 client 数 组 。 
创建 套 接 字 


12-28 ”创建 3 个 套 接 字 : 一 个 原始 ICMPv4 套 接 字 、 一 个 原始 
ICMPv6 套 接 字 和 一 个 Unix 域 字 节 流 套 接 字 。unlink 最 近 一 次 运行 icmpd 
可 能 遗留 的 Unix 域 套 接 字 路 径 名 ，bind 它 的 众所周知 路 径 名 到 这 个 Unix 
mi. 然后 listen 外 来 连接 。 这 是 客户 connect 的 HA EET. t 
算 select 和 为 调用 accept 所 分 配 的 套 接 字 地 址 结构 所 需 的 最 大 描述 符 。 








图 28-35 给 出 main 函 数 的 后 半 部 分 。 它 是 一 个 无 限 循环 : US 
用 select， 等 待 任 一 描述 符 变 为 可 读 。 





. A 
Wanpa/tempa.c 


29 frr d 35) { 

30 rset - allset; 

31 nrsady = Seleot(maxEd:l1, roet, NULL, NULL, NULL}; 
12 if (FD ISSET(listenfd, &rset)! 

32 it (readable l-cton() <= 0) 

34 continus; 

as wr i1 FD TSSET(fd4, hr xet)) 

36 if (readable v4(; z» 9) 

357 continue; 


38 fifdaf IPU6 


39 if ‘FD ISSET(fd&, &rcet)) 

40 if ‘readable vél) «- 3) 

41 continue: 

a2 tendif 

45 for (i = 0; i cs maxi; ive) { /* check all clients for data */ 
ad if / (sock£S = client [i] :connfd < 0) 

45 sont inuc ; 

46 if 'FD ISSET(so-kfd, &rse-)! 

43 if .meandable corn(-) zm 0) 

18 break; /* no more readable descriptore */ 
49 } 

50 

51 exic(o); 

Sz ) 


Wanpa/iemps.c 














图 28-35 main 函数 后 半 部 分 : 处 理 可 读 描述 符 
检查 监听 Unix 域 套 接 字 


32-34 ”首先 测试 监听 Unix 域 套 接 字 ， 若 已 就 绪 则 调 
用 readable_listen。 存 放 select 返 回 的 可 读 描述 符 数 的 变量 nready 是 一 
个 全 局 变量 。 每 个 形 如 readable_XXX 的 函数 都 递减 该 变量 ， 并 作为 函数 
返回 值 返回 它 的 新 值 。 当 该 值 到 达 0 时 ， 所 有 可 读 描 述 符 都 已 被 处 理 ， 
于 是 再 次 调用 select。 











777 
检查 原始 ICMP 套 接 字 
35-42” 先 测试 原始 ICMPv4 套 接 字 ， 青 测试 原始 ICMPv6 套 接 字 。 
检查 已 连接 Unix 域 套 接 字 





43-49 ”测试 每 个 已 连接 Unix 域 套 接 字 ， 其 中 任何 一 个 变 为 可 读 意 
味 着 相应 客户 已 发 送 一 个 描述 符 ， 或 者 该 客户 已 终止 。 


128-3625 tH fJ readable listenbÉ ZU fEicmpdlf] I Wr E dz ^g AE 73 n] ic 
时 被 调用 ， 表 示 出 现 一 个 新 的 客户 连接 。 





fempdlreadabie_listen.c 





1 include "Lonpd.h" 


2 int 

2 resdable .isten/void: 

44 

5 int i, ccnnfd; 
6 eceklen_t clilcn; 


5 cl:len = sizeof (cliaddr); 
ccnnfá = Accept(ltstenfd, (SA *)“cliaddr, &kcliler]; 


9 /* find first availeble clienti] st-ucture */ 

10 for (i = 4; ic FD S*TSIZE; iv) 

1i i= (client(i].connfd - C) + 

12 clicnt |i] .conmtd = cornEd; /* save descriptor */ 

13 break, 

14 ) 

15 if (i == sU SEISIZE) | 

16 close (connEd! ; /* can't handle new client, */ 

17 return (--nready) ; /* rudely close the new cornecticn */ 
1a } 

19 printf!'new cornscticn, i = #4. connfd = td\n", i, connía): 

20 F2 3ETiconn?c, &allset!; /* add rew descriptar to set */ 
21 iE (connfd > mexfd) 

az Mamta - connfd; /* for select() */ 

23 iE (i » maxi) 

24 maxi = i; /* max index in client{) array */ 
25 return!--nready;; 


iempe readable sister.c 


图 28-36 ”处 理 新 的 客户 连接 
7-25 ”接受 新 的 客户 连接 ， 并 选用 client 数 组 中 第 一 个 可 用 元 素 。 
本 函数 中 的 代码 复制 自 图 6-22 前 半 部 分 。 如 果 在 客户 数组 中 未 找到 数据 
项 ， 我 们 就 直接 关闭 新 的 客户 连接 ， 转 而 处 理 当 前 的 客户 。 


图 28-37 给 出 readable_conn 函 数 的 前 半 部 分 ， 它 在 某 个 已 连接 套 接 
字 变 为 可 读 时 被 调用 ， 其 参数 为 相应 客户 在 client 数 组 中 的 下 标 。 
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icmp readable. conm.c 


1 inclue mxl. t 

2 inz 

3 readable conniint i) 

af 

5 int unixfd, -ecvfd, 

6 char : 

2 ssize t n; 

8 socklen t len; 

9 struct soOckaddr storage RS; 

16 unixfd = clianz i] .connfd; 

11 rec/fá = -上 

12 a= ( (n » Read_tdiunixtd, ác, 1, Sreevtd)) == J) 1 

13 err msgi"client $3 terminated, recvfd - td", i, recvfa); 
14 goro clienrdone; /* client procahly rermo rated */ 
15 ) 

1€ /* data from client; should be descripror */ 

17 i= (reevtd < 0) [ 

16 eir msgí"read ^i Jid noL return descriptor”); 

ig goto clienterr: 

20 } 


icmpád'/reacdabl? cont.c 
128-37 读 入 来 自 客户 的 数据 和 可 能 有 的 描述 符 
读 取 客户 发 送 的 数据 及 可 能 有 的 描述 符 


13~18 ”调用 图 15-11 中 的 read_fd 函 数 读 入 来 自 客 户 的 数据 和 可 能 
的 描述 符 。 如 果 返 回 值 为 0， 那 么 相应 客户 已 关闭 它 所 在 的 连接 端 ， 这 
可 能 由 进程 终止 引起 。 


为 了 在 应 用 进程 和 icmpd 之 间 传 递 描述 符 ， 我 们 可 以 使 用 Unix 域 字 
节 流 套 接 字 ， 也 可 以 使 用 Unix 域 数据 报 套 接 字 。 应 用 进程 的 UDP 套 接 字 
可 经 由 任 一 类 型 的 Unix 域 套 接 字 传递 。 之 所 以 采用 字 节 流 套 接 字 是 为 了 
检测 客户 何 时 终止 。 当 一 个 客户 终止 时 ， 它 的 所 有 描述 符 〈 包 括 它 
到 icmpd 的 Unix 域 连接 ) 都 被 目 动 关闭 ， 这 就 告知 icmpd 从 client 数 组 中 
IE UNUM UNUM 
p Ay Fh SS o 


16-20 ”如果 客户 未 关闭 本 连接 ， 那 么 我 们 期 符 收 取 一 个 描述 符 。 


图 28-38 给 出 readable_conn 函 数 的 后 半 部 分 。 








icimipálreaaaole comic 





21 len - aizecf (s3); 

22 i^ (getsockname!recv^d, (SA +) &ss, &len) < f) i 

23 err retí("getsocknsns error"); 

24 goto clionterr: 

25 } 

2€ client [i].family - s5.ss family, 

27 7 € (tc^ iear [i] port s mock ge port (isk AI exs, leni) zz 0) { 
26 client [i] .lport = scck bind wildirecvfd, client[i].family); 
29 if ‘clientli,.loort <= 2) | 

36 err ret/"erzror binding ephemeral port*!; 

11 goro clisenterr,; 

32 } 

ai ) 

34 Wrzite(unixEd, "1", 1'; /* tell client all OK */ 

35 Close (recvfd); /* all done with client's “DF socket */ 
3€ return (--nready) ; 


3; clienterr 


38 Writc(unixtd, "O*, 1!; /* tell clicnt error occurred */ 
39 clientaone: 

4n Close (uni xfd) ; 

ai i= (recvfd >= J) 

42 Close |;recvid;; 

42 FD CLR(urixfd, &allset'; 

44 client (i) connfd = -1; 

as return (--nready) ; 

16 ] 


icmpél/readabl? conm.c 


图 28-38 ”获取 客户 捆绑 在 UDP 套 接 字 上 的 端口 号 
获取 绑 定 在 UDP 套 接 字 上 的 端口 号 

21-25 icmpd 调 用 getsockname 以 获取 客户 捆绑 在 它 的 UDP 套 接 字 上 
的 端口 号 。 既 然 我 们 不 知道 该 为 这 个 套 接 字 地 址 结构 分 配 多 大 的 缓冲 
区 ， 于 是 我 们 使 用 一 个 sockaddr_storage 结 构 ， 该 结构 既 足 够 大 叉 适当 
地 对 齐 ， 适 合 存 放 系 统 文 持 的 任何 套 接 字 地 址 结构 。 

26-33 ”把 客户 UDP 套 接 字 的 地 址 族 和 端口 号 存放 在 该 客户 的 
client 结 构 中 。 如 果 端 口号 为 0， 那 驶 调用 我 们 的 sock_bind_wild 函 数 把 
通 配 地 址 和 一 个 临时 端口 捆绑 到 这 个 套 接 字 ， 不 过 如 前 所 提 ， 这 么 做 在 
SVR4 实 现 上 行 不 通 。 
通知 客户 操作 成 功 

34 把 值 为 字符 “1 的 单字 节 数 据 发 送 回 客户 。 


关闭 客户 的 UDP 套 接 字 














as ”我 们 已 经 在 由 客户 传递 来 的 UDP 套 接 字 的 副本 上 完成 相关 任 
务 ， 于 是 关闭 它 。 既 然 该 描述 符 是 客户 传递 来 的 ， 因 而 只 是 一 个 副本 ; 
尽管 关闭 了 这 个 副本 ， 该 UDP 和 套 接 字 在 客户 中 仍然 是 打开 着 的 。 


处 理 错误 及 生 和 客户 终止 


37-45 ”如果 发 生 错误 ， 那 束 把 值 为 字符 “0 的 单字 节 数 据 发 送 回 客 
户 。 如 果 客 户 终止 〈 即 客户 关闭 了 所 在 的 连接 端 ) ， 那 就 关闭 本 Unix 域 
连接 的 服务 器 端 ， 并 从 select 的 描述 符 集 中 清除 该 描述 符 。 把 该 客户 的 
client 结 构 中 的 connfd 成 员 设置 为 -1， 以 指示 作为 client 数 组 元 素 之 一 
的 这 个 client 结 构 又 可 以 使 用 。 
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我 们 的 readable_v4 了 水 数 在 原始 ICMPv4 套 接 字 变 为 可 读 时 被 调用 。 
图 28-39 给 出 了 它 的 前 半 部 分 。 这 部 分 代码 类 似 我 们 早先 在 图 28-8 和 图 
28-20 中 给 出 的 ICMPv4 处 理 代码 。 

















icmpelireadchie vq.c 


1 fincluize “iemed.h" 

2 #incluce snetinst/in_systm.h> 

3 fincluze «nctinct/io.h» 

4 tincluce «netinst/io icmp.h> 

5 fincluze «nztinst /udp.h» 

€ int 

7 readable vg ívoid) 

£ 

2 int i, hler:, nlen?2, icmplen, sport; 

10 char buf [VAXLIN®) ; 

11 char s*cstr[7NET ADDRSTRLEN|, ds-str[INE^ ATDRSTRLEN]: 

12 sa-ze Lu: 

13 sccklen t ler; 

14 strucz ip *ip. *hip; 

15 struct icmp *icmc; 

16 struct udphdr *udp; 

17 otruct cockacdr in trom, dest; 

18 etruc= icmpd err (icmpd err; 

19 lan - sizeot (from); 

20 n = Recvfrom(fZ4, buf, MAXLINE, U, (SA *) &fron, Elen); 

ai pr-ntfi'$d bytes --Mpv4 from ¥s:", 2n, Sock_ntop host( (sk *) efron, 1e2)!; 
22 iz = (struct ip *j buf; /* start cf IF header */ 

23 blenl = ip-sip hl ce 2; /* length of TP header */ 

24 icmp = (struct icmp *) íbu? + hleni); /* starc of ICMP header */ 
25 iE ( (iampler = 3 - àlenl) < E? 

26 er quit("icwplen (8d) < 3*, icmplen): 

z7 pr:ntf|' type = td, code = td\n", icmp -ieomp typc, -ome »-icmp codz|; 


iompdireadabie v.c 


图 28-39 “处理 所 接 收 的 ICMPv4 数 据 报 ， 前 半 部 分 














这 部 分 代码 显示 每 个 接收 到 的 ICMPv4 消 息 的 有 关 信 息 。 它 们 是 在 
开发 本 守护 程序 时 为 便于 调试 而 增加 的 ， 当 时 可 以 基于 一 个 命令 行 参数 
打开 这 些 输出 。 
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28-4023 H readable v4FA ZA Ji 2E eb. 


tommbrcadabie wc 
26 i= (iemp »iewp typc == ICMP_UNRZACH || 


29 lcWp-»icimp type == ICMP TIMXCEED | 

30 iemp-siemp type == ICMP SOURCEQUEN-H) { 

31 if jicmplen < 8 - 2J + 3) 

32 err_quit ("icomplien ‘Id} < 8 + 2C + E", icmplen); 

33 nip s (strucr ip *) (buf + Merl - 8); 

34 alen2 = hip-»ip hl << 2; 

35 princi (*\tsrcip = $2, datip = $5, prcto = stdin", 

36 Inet ntop(AF TNET, &hip-»ip src, srcs-r, sizeof isrcstrl), 
35 Inet_ntop(AF_INET, &hip-»ip dst, dstscr, sizeof {dststr}), 
3t hip->ip p;; 

39 if ihip--ip_p -- IPEROTC UDP) ( 

4n poe (struct uócpoódr *) (bu^ + hler] = A + hlen?}; 

41 sport = udp->uh sport; 

42 /* find client s Unix domain socket, send headers ~/ 

43 for (i = 6: i <= maxi; i++) 1 

EZ] if (client [i] .connfd >- 0 ww 

as client [i] .famicy == AF INET && 

ac client[il.lport -- sport) { 

47 bzeroíkdest, sizeof (dest) i; 

46 dest .sin_tam:ly = A7 INET; 

49 #ifdef HAVE SOCXADDR S^ LEN 

50 dest ,Sin len s sizeacf (lest); 

51 fendif 

z memcpy(&dsst.s;n addr, ahip--ir 3er. 

3 sizecf (struct ir_adcr)); 

54 Gest.sin port = udp-»uh diport: 

55 icmpd er-.icnzd type - icmp--icmo zype; 

5€ icmpd er-.icnpd cade = icmp-»icnp code; 

7 icmpd er-.icrcd len = sizeof (struc: sockaddr in); 
5t memcpy (&icmpd err.iompd Geet, udst, siseotidest)); 
se /* conver Lype & oode LC reasonable erens value */ 
50 icmpd err.icnrd errno ~ EHOSTUNREACH; /* default */ 
62 if licmp-»icnz zyoe == LCMP UNAE^CH) | 

62 if (icmz--icmp codes == ICM? UNRDACII PORT! 

63 iampd err.icnpi errno = ECONNREFUSED; 

64 elsa if íicmp--icmp cote -- ICMP UNKEACH NEEDFRAG) 
6s iecmpd ecrr.icwuwpa crrno = EMEOSIZE; 

oC } 

AT Write(client [i] .comnfd, &icmpd err, sizeof (iempa_err)); 
ek ) 

69 } 

76 } 

71 } 

73 yeturn(--nready) ; 

3} 


fompdbreadahie We 


图 28-40 ”处理 所 接 收 的 ICMPv4 数 据 报 ， 后 半 部 分 
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检查 需 通知 应 用 进程 的 消息 类 型 


290-31 Fel] RIAA Ht RIA. REIN BGR MK ICMP v4 iF 
i. (128-30) 传递 给 相应 的 应 用 进程 。 


检查 UDP 出 错 信息 ， 找 出 相应 客户 


34-42 ”hip 指 向 所 接收 的 ICMP 消 息 中 跟 在 ICMP 首 部 之 后 的 IP 首 
部 ， 它 是 引发 本 ICMP 错 误 的 那个 数据 报 的 IP 首 部 。 我 们 验证 这 个 IP 数 
据 报 是 一 个 UDP 数据 报 ， 然 后 从 跟 在 了 首部 之 后 的 UDP 首部 中 取出 源 
UDP 端口 号 。 

43-55 “搜索 client 数 组 的 所 有 client 结 构 元 素 ， 寻 找 地 址 族 和 端口 
号 都 匹配 的 客户 。 如 果 找 到 这 个 客户 ， 那 就 构造 一 个 IPv4 套 接 字 地 址 结 
构 ， 存 放 引 发 本 错误 的 那个 UDP 数据 报 的 目的 耳 地 址 和 目的 端口 号 。 
构造 icmpd_err 结 构 

56-70 构造 一 个 icmpd_err 结 构 ， 并 通过 到 达 相 应 客户 的 Unix 域 连 
接 把 它 发 送出 去 。 如 图 28-30 所 示 ， 我 们 首先 把 ICMPv4 消 息 类 型 和 代码 
映射 成 某 个 errno 值 。 
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ICMPvV6 错 误 由 我 们 的 readable_v6 函 数 处 理 ， 图 28-41 给 出 了 它 的 前 
半 部 分 。ICMPv6 的 处 理 类 似 图 28-12 和 图 28-24 中 的 代码 。 


icniixl readobie: v.c 
1 #incluce " Loupd.h" 


2 finclu2e -nstinst/in systm.h> 
3 fincluse «nstinst/io.h» 

4 $incluze «nstinst/ip icmp.h- 
s £incluce enetinest/udp.h» 


& #ifdef lve 
7 


fineluse <notinst/id6.h> 
6 #incluce «netinst/icmp6.h» 
a tendif 
10 int 
11 readable vé (void) 
12.* 
13 d$ifüef TPVÉ 
14 int i, hler2, icmpéler, sport; 
15 char buf [MAKLINGI ; 
16 char srostr (INET6_ADDRSTRLEN), dststr[INET6é AZDSSTR-EN]: 
17 ss-ze t n; 
18 sceklen t ler; 
19 struct ipo her *ipG, *hip6: 
20 struct icmp hir  *icnpf; 
prt struct udphár *udp; 
<2 struct sockacdr in& from, dest; 
z3 struct icmpd err icrpd er-; 
24 len = siseul (from); 
45 n - Recvfrom(faé, buf, MAXLINE. 0, (SA *) afron, alen); 
z6 printet i'a bytes 二 MEV6 trom *5:", 2n, Sock ntoc host(;ZA *) atrom, 1c23)!; 
27 iemp6 = ist-uct icrp5 hdr *) buf; /* star- of ICMPv6 header */ 
ZR if (€ CGionpélen = n) e 8) 
429 err quit("icmpelen (#2; < 8", icmpelsn); 
30 printEl! type - td, code = $d Mn", icnp6-»icmp6 typo, icmpé-»icmp6 c2d2); 


iompdireadehie v6.c 


图 28-41 处理 所 接收 的 ICMPv6 数 据 报 ， 前 半 部 分 
图 28-42 给 出 了 readable_v6 函 数 的 后 半 部 分 。 这 部 分 代码 类 似 图 28- 
40: 先 检 查 ICMP 错 误 类 型 ， 再 查看 引发 本 错误 的 IP 数 据 报 是 否 为 一 1 
UDP 数据 报 ， 然 后 构造 一 个 icmpd_err 结 构 发 送 给 相应 客户 。 
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fonpelreadshie_v6.c 


31 if (iempé-2:zmz6 type == ICMPS DST UNREACH | 

32 ierps-»icmp5 type == ICMP6_ PACKET TOC BIG || 

33 icrps-»icmp6 type -- ICMPS TIME EXCEEDED) [ 

34 if ‘iempslen ~ E+ 0: 

35 err quit(*'icnp6leai (fd) < & + 6", icwpélent; 

36 hipé = (struct ipt hdr *) (but + 8): 

37 hlen2 = sizeof(struct is¢é_hdri; 

AR printf("NLsrcip = $s, datip = 9s, next hdr = bdin", 

39 Ine- ntop(AF_INET§, &hipe-*ips src, srcstr, sizecf(srcstr)!, 
au lne- ntop(AF INETé, chipt->ips set, datetr, &izecf(dstetr)!, 
41 hipo--ipC nxt:; 

42 if 'u-p6-»ip6 nxt == IPERCTO UDP) { 

43 udp - (struct u2pndr *) (but + 8 + hlen2); 

44 cpert = udp-»uh_ccort; 

as /* find client's ‘nix demain socket, send headers */ 
a6 for (i = 0; i <= maxi; i++) 4 

E it ;client[i].conntd >= 0 && 

46 client[il.fenily == AP INET6 && 

49 vlient[i].lport zm spar) { 

30 bzeroíédest, sizeof (des =)!; 

31 dest.sin6_family = AF INET6: 

52 &ifdef UAVE SOCXADDR SB LEX 

53 Gest.sins len ~ sizeof (dest; ; 

34 #endirc 

55 memcpy(&dest.sin6 addz, &hipC---p6 dat, 

56 sizeof (struct iné acdr]!; 

57 Gest.sine port = adp--uh dport; 

38 icmpd_ers.icmpd_type = icmp6é--icups_type; 

59 icmpd err. icnpd cxhe = Pcwmpé-c3ieups eode; 

su icmpd err.icnpd len = sizeof(struct sockaddr int); 
51 memcpy(&icmpd err.icmpd dest, Sdest, siseoridest)); 
52 /^ wxwer- type & voje to reasonable erens value */ 
63 icmpd err.icnpá errno - EHOSTUNREACH; /* default */ 
$4 if iicmp6-»icwpS type == ICMPé DET UNRZACH && 

55 icnp6é-»icwpó code == CME6 D3T UNREACE NOFOGT! 
56 icrpd err.icmpd errno = ECONNREFUSED; 

57 if íicmps--icwps type -- ICMP6 PACKET 100 BIG) 

58 icrmd crr.icmpd crrnc » EMƏCSIZE; 

5 Write/client[i'.connfd, &icmpd err, sizeof (icmp err)); 
70 ) 

“a } 

72 } 

73 ] 

74 ret urn (-neeady] ; 

75 fendit 

?6 ] 


icompdireadehie vée 
图 28-42 “处理 所 接 收 的 ICMPv6 数 据 报 ， 后 半 部 分 
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28.8 ”小结 
原始 套 接 字 提供 以 下 3 个 能 力 。 


e 进程 可 以 读 写 ICMPv4、IGMPv4 和 ICMPv6 等 分 组 。 

e. 进程 可 以 读 写 内 核 不 处 理 其 协议 字段 的 了 数据 报 。 

e 进程 可 以 目 行 构造 I[Pv4 首 部 ， 通 常用 于 诊断 目的 ( 亦 或 不 驻地 被 黑 
客 们 利用 ) 。 


ping 和 和 traceroute 这 两 个 常用 的 诊断 工具 使 用 原始 套 接 字 完 成 任 
务 ， 我 们 自行 开发 的 这 两 个 程序 同时 支持 IPv4 和 IPv6。 我 们 还 自行 开发 
了 icmpd 守 护 程序 ， 使 得 UDP 应 用 进程 能 够 访问 由 自己 的 UDP 套 接 字 异 
步 触 发 的 ICMP 错 误 。 这 个 守护 程序 也 是 一 个 通过 Unix 域 套 接 字 在 无 杀 
缘 关 系 的 客户 和 服务 器 之 间 传 递 描述 符 的 例子 。 














习题 


28.1 ”我们 说 过 IPv6 首 部 的 几乎 所 有 字段 以 及 所 有 扩展 首部 都 可 以 
通过 套 接 字 选 项 或 辅助 数据 由 应 用 进程 指定 或 获取 。 应 用 进程 无 法 获取 
或 指定 IPv6 数 据 报 中 的 哪些 信息 ? 


28.2 ”在 图 28-40 中 如 果 由 于 某 种 原因 客户 停止 从 通 往 icmpd 守 护 进 
程 的 Unix 域 连接 读 入 数据 ， 然 而 来 自 icmpd 的 ICMP 错 误 信 息 却 大 量 到 
达 ， 那 将 会 发 生 什么 ?最 简单 的 解决 办 法 是 什么 ? 

28.3. ”如 果 我 们 指定 本 地 子 网 的 子 网 定向 广播 地 址 运行 我 们 的 ping 
程序 (注意 ， 路 由 器 通常 不 转发 子 网 定 同 广播 地 址 ) ， 它 将 正常 工作 。 
也 就 是 说 ， 即 使 我 们 不 设置 so_BRoADCAST 套 接 字 选 项 ， 广 播 的 ICMP 回 射 
请 求 也 作为 一 个 链 路 层 广播 帧 发 送 。 为 什么 ? 

28.4 如 果 使 用 我 们 的 ping 程 序 在 一 个 多 宿主 机 上 ping 所 有 主机 多 
播 组 的 地 址 224.0.0.1， 将 会 发 生 什么 ? 
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QD 需 清楚 的 是 ， 并 非 因为 该 头 文 件 中 定义 了 某 个 协议 的 名 字 〈( 如 
IPPROTO_EGP) 就 意味 着 内 核 必然 支持 这 个 协议 。 


本 书 的 新 作者 在 此 验证 IPv4 首 部 确实 是 ICMPv4， 以 防 内 核 错误 地 把 
非 ICMP 分 组 递送 到 原始 ICMP 套 接 字 完全 是 多 此 一 举 。 一 一 译 者 注 


本 书 第 3 版 不 再 讲解 的 X/Open 传输 接口 (XTI)〉API 在 这 方面 上 咯 有 改 
善 ， 它 的 recvfrom 对 等 函数 (t_rcvudata) 为 此 返回 出 错 代 码 TL00k， 表 
明 调 用 进程 早先 发 送 的 某 个 数据 报 引 发 了 一 个 错误 ， 应 用 进程 随后 必须 
调用 另 一 个 函数 Ct revuderr). 获取 真正 的 错误 以 及 引发 这 个 错误 的 数 
据 报 的 箱 地 址 和 目的 端口 号 。 然 而 这 个 办 法 存在 如 下 问题 : 内 核 在 任意 
时 刻 也 许 只 能 维持 这 些 异 步 错 误 之 一 的 有 关 人 信息。 如 果 应 用 进程 发 送 了 
CUR) 3 个 数据 报 ， 而 且 有 2 个 引发 了 ICMP 错 误 ， 那 么 只 有 其 中 一 
个 异步 地 返回 给 应 用 进程 。 








第 29 章 ”数据 链 路 访问 
29.1 概述 


目前 大 多 数 操作 系统 都 为 应 用 程序 提供 访问 数据 链 路 层 的 强大 功 
。 这 种 功能 可 以 提供 如 下 能 


anp 
CC 


能 够 监视 由 数据 链 路 层 接收 的 分 组 ， 使 得 诸如 tcpdump 之 类 的 程序 
能 够 在 普通 计算 机 系统 上 运行 ， 而 无 需 使 用 专门 的 硬件 设备 来 监视 
分 组 。 如 果 结 合 使 用 网 络 接口 进入 混杂 模式 (promiscuous mode) 
的 能 力 ， 那 么 应 用 程序 甚至 能 够 监视 本 地 电缆 上 流通 的 所 有 分 组 ， 
而 不 仅仅 是 以 程序 运行 所 在 主机 为 目的 地 的 分 组 。 


网 络 接口 进入 混杂 模式 的 能 力 在 日 益 普 及 的 交换 式 网 络 中 用 处 不 
大 。 这 是 因为 交换 机 仅仅 把 单 播 、 多 播 或 广播 分 组 传递 到 数据 链 路 层 目 
的 地 址 所 在 的 物理 端口 。 为 了 监视 流 经 所 有 端口 或 某 些 端口 的 分 组 ， 监 
视 端口 必须 配置 成 接收 其 他 端口 的 分 组 流通 ， 这 种 行为 称 为 监视 器 模式 
(monitor mode) 或 端口 镜像 (port mirroring) 。 注 意 ， 许 多 通常 被 你 
认为 没有 交换 机 的 存储 转发 能 力 的 设备 实际 上 也 具备 这 种 能 力 ， 璧 如 说 
双 速 率 10/100 Mobit/s 集 线 器 通常 也 是 一 个 双 端 口 的 交换 机 : 一 个 端口 上 
连接 100 Mbit/s 系 统 ， 男 一 个 端口 上 连接 10 Mbits. 





e 能 够 作为 普遍 应 用 进程 而 不 是 内 核 的 一 部 分 运行 某 些 程序 。 举 例 来 
说 ，RARP 服 务 器 的 大 多 数 Unix 版 本 是 普通 的 应 用 进程 ， 它 们 从 数 
据 链 路 读 入 RARP 请 求 ， 又 往 数据 链 路 写 出 RARP 应 答 (RARP 请 求 
和 应 答 都 不 是 IP 数 据 报 ) 。 
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Unixz 上 访问 数据 链 路 层 的 3 个 各 用 方法 是 BSD 的 分 组 过 滤器 BPF、 
SVR4 的 数据 链 路 提供 者 接口 DLPI 和 Linux 的 Sock_PACKET 接 口 。 我 们 首 
先 简要 介绍 这 3 个 数据 链 路 访问 接口 ， 然 后 讲解 1ibpcap 这 个 公开 可 得 的 
分 组 捕获 函数 库 。 访 函数 库 适 用 于 所 有 这 3 个 接口 ， 使 用 它 可 以 编写 独 


立 于 操作 系统 提供 的 实际 数据 链 路 访问 接口 的 程序 。 我 们 通过 开发 一 个 
程序 来 讲解 该 水 数 库 ， 该 程序 同一 个 名 字 服 务 器 太 送 DNS 查 询 ( 我 们 自 
行 构 造 这 些 UDP 数 据 报 并 往 一 个 原始 套 接 字 写 出 它们 ) ， 然 后 使 
和 以 便 判 断 它 是 否 开 启 了 UDP 
交 验 和 。 





29.2 BPF: BSD 分 组 过 滤器 


4.4BSD 以 及 源 自 Berkeley 的 许多 其 他 实现 都 支持 BSD 分 组 过 滤器 
(BSD Packet Filter, BPF) 。BPF 的 实现 在 TCPv2 第 31 章 中 讲解 。BPF 
的 历史 、BPF 伪 机 器 (pseudomachine〉 的 描述 及 与 SunOS 4.1.x 上 NIT 分 
组 过 滤器 的 比较 参见 [McCanne and Jacobson 1993] . 


在 支持 BPF 的 系统 上 ， 每 个 数据 链 路 驱动 程序 都 在 发 送 一 个 分 组 之 
前 或 在 接收 一 个 分 组 之 后 调用 BPF， 如 图 29-1 所 示 。 











应 用 进程 





| 应 用 进程 


进程 


YK 








A M RS HAS n 4s 


图 29-1 ”使 用 BPF 截 获 分 组 








TCPvV2 图 4-11 和 图 4-19 给 出 了 某 个 以 太 网 接口 驱动 程序 中 这 些 调用 
的 例子 。 在 分 组 接收 之 后 尽早 调用 BPF 以 及 在 分 组 发 送 之 前 尽 晚 调用 
BPF 的 原因 是 为 了 提供 精确 的 时 间 惟 。 
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尽管 往 数 据 链 路 中 安置 一 个 用 于 捕获 所 有 分 组 的 “龙头 ”并 不 困难 ， 
BPF 的 强大 威力 却 在 于 它 的 过 小 能 力 。 打 开 一 个 BPF 设 备 的 每 个 应 用 进 


程 可 以 装载 各 自 的 过 滤器 ， 这 个 过 滤器 随后 由 BPF 应 用 于 每 个 分 组 。 有 
些 过 滤器 比较 简单 〈 例 如 “udp or tcp” 只 接收 UDP 或 TCP 分 组 ) ， 不 过 
更 复杂 的 过 滤器 可 以 检查 分 组 首部 某 些 字段 是 否 为 特定 值 。 举 例 来 说 ， 

TCPvV3 第 14 章 中 使 用 如 下 过 滤 妖 : 


tcp and port 80 and tcp[13:1] & 0x7 != 0 











达成 只 收集 去 往 或 来 自 端口 80 的 设置 了 SYN、FIN 或 RST 标 志 的 
TCPO, EH rBpxXxsxtcp[13:1] TRA A TCP EE BBZT 28 M ELE ^E fm T E 
为 13 那 个 位 置 始 的 1 字 节 值 。BPF 实 现 一 个 基于 寄存 器 的 过 滤器 机 器 ， 
特定 于 应 用 进程 的 过 滤器 就 通过 过 滤器 机 器 应 用 于 每 个 接收 分 组 。 尽 管 
可 以 直接 使 用 这 个 伪 机 器 的 机 器 语言 〈 在 BPF 手 册页 面 中 讲解 ) 编写 过 
滤器 程序 ， 最 简单 的 接口 却 是 使 用 我 们 将 在 29.7 节 讲解 的 pcap_compile 
函数 把 ASCII 字 符 串 〈 例 如 刚才 给 出 的 以 tcp 开 头 的 那个 字符 串 ) 编译 成 
BPF 伪 机 器 的 机 器 语言 。 


BPF 使 用 以 下 3 个 技术 来 降低 开销 。 











BPF 过 滤 在 内 核 中 进行 ， 以 此 把 从 BPF 到 应 用 进程 的 数据 复制 量 减 
少 到 最 小 。 这 种 从 内 核 空间 到 用 户 空间 的 复制 开销 高 郧 。 要 是 每 个 
分 组 都 如 此 复制 ，BPEF 可 能 就 跟 不 上 快速 的 数据 链 路 。 

由 BPEF 传 递 到 应 用 进程 的 只 是 每 个 分 组 的 一 段 定 长 部 分 。 这 个 长 度 
称 为 捕获 长 度 〈capture length) ， 也 称 为 快照 长 度 (snapshot 
length， 简 写 为 Snaplen) 。 大 多 数 应 用 进程 只 需要 分 组 首部 而 不 需 
要 分 组 数据 。 这 个 技术 同样 减少 了 由 BPF 复 制 到 应 用 进程 的 数据 
量 。 举 例 来 说 ，tcpdump 默 认 把 该 值 设 置 为 906， 能 够 容纳 一 个 14 字 
节 的 以 太 网 首部 、 一 个 40 字 节 的 IPv6 首 部 、 一 个 20 字 节 的 TCP 首 部 
以 及 22 字 市 的 数据 。 如 果 需 要 显示 来 自 其 他 协议 〈( 壁 如 说 DNS 和 
NFS) 的 额外 信息 ， 用 户 就 得 在 运行 tcpdump 时 增 大 该 值 。 

BPF 为 每 个 应 用 进程 分 别 缓冲 数据 ， 只 有 当 绥 冲 区 已 满 或 读 超时 
(read timeout) 期 满 时 该 缓冲 区 中 的 数据 才 复 制 到 应 用 进程 。 该 超 
时 值 可 由 应 用 进程 指定 。 例 如 tcpdump 把 它 设 置 为 1000ms，RARP 守 
护 进 程 把 它 设 置 为 0 (因为 RARP 分 组 数量 极 少 ， 而 且 RARP 服 务 器 
需要 一 接收 请 求 就 发 送 应 答 ) 。 如 此 缓冲 的 目的 在 于 减少 系统 调用 
的 次 数 。 尽 管 从 BPF 复 制 到 应 用 进程 的 仍然 是 相同 数量 的 分 组 ， 但 
是 每 次 系统 调用 都 有 一 定 的 开销 ， 因 而 减 少 系 统 调 用 次 数 总 能 降低 














开销 。 (举例 来 说 ，APUE 图 3-1 比 较 了 以 在 1 字 节 到 131072 字 节 之 
局 
4) 


尽管 我 们 在 图 29-1 中 只 画 出 单个 缓冲 区 ，BPEF 其 实 为 每 个 应 用 进程 
维护 两 个 缓冲 区 ， 在 其 中 一 个 缓冲 区 中 的 数据 被 复制 到 应 用 进程 期 间 ， 
另 一 个 缓冲 区 被 用 于 装填 数据 。 这 就 是 标准 的 双 绥 冲 (double 
buffering) 技术 。 
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我 们 在 图 29-1 只 展示 了 BPF 的 分 组 接收 ， 包 括 由 数据 链 路 从 下 方 
(网 络 ) 接收 的 分 组 和 由 数据 链 路 从 上 方 CIP) 接收 的 分 组 。 应 用 进程 
也 可 以 写 往 BPF， 致 使 分 组 通过 数据 链 路 往外 《〈 癌 上 和 癌 下 ) 发 送出 
去 ， 不 过 大 多 数 应 用 进程 仅仅 读 自 BPF 而 已 。 没 有 理由 通过 写 往 BPF 发 
送 IP 数 据 报 ， 因 为 IP_HDRINCL 套 接 字 选项 允许 我 们 写 出 任何 期 望 类 型 
(包括 IP 首 部 在 内 ) 的 IP 数 据 报 。 (我 们 将 在 26.7 节 给 出 如 此 写 出 也 数 
据 报 的 一 个 例子 。) 写 往 BPF 的 唯一 理由 是 为 了 自行 发 送 不 是 IP 数 据 报 
的 网 络 分 组 ， 例 如 RARP 守 护 进程 不 如 此 发 送 不 是 P 数 据 报 的 RARP 应 





为 了 访问 BPF， 我 们 必须 打开 一 个 当前 关闭 着 的 BPF 设 备 。 举 例 来 
说 ， 我 们 可 以 尝试 打开 /dev/bpfo， 如 果 人 返回 EBUSY 错 误 ， 那 就 尝试 打 
开 /dev/bpf1， 如 此 等 等 。 一 旦 打开 一 个 BPF 设 备 ， 我 们 可 以 使 用 大 约 一 
打 ioct1 命 令 来 设置 该 设备 的 特征 ， 包 括 : 装载 过 滤器 、 设 置 读 超时 、 
设置 缓冲 区 大 小 、 往 该 BPF 设 备 附 接 某 个 数据 链 路 、 开 局 混杂 模式 ， 等 
等 。 然 后 就 使 用 read 和 write 执行 IO 。 


29.3 DLPI: 数据 链 路 提供 者 接口 


SVR4 通 过 数据 链 路 提供 者 接口 (Datalink Provider Interface, 
DLPD 提供 数据 链 路 访问 。DLPI 是 一 个 由 AT&T 设 计 的 独立 于 协议 的 访 
问 数 据 链 路 层 所 提供 服务 的 接口 [Unix International 1991] 。 其 访问 通 
过 发 送 和 接收 流 消息 (STREAMS message) 实施 。 


DLPI 有 两 种 打开 方式 : 一 种 方式 是 应 用 进程 先 打开 一 个 统一 的 伪 
设备 ， 再 使 用 DLPI 的 DL_ATTACH_REQ 往 其 上 附 接 某 个 数据 链 路 〈 即 网 络 
BO); 另 一 种 方式 是 应 用 进程 直接 打开 某 个 网 络 接口 设备 〈 例 如 
leo) 。 无 论 以 哪 种 方式 打开 DLPI， 通 常 尚 需 为 提高 操作 效率 而 压 入 2 个 
流 模块 (STREAMS module) : 在 内 核 中 进行 分 组 过 滤 的 pfmod 模 块 和 
为 应 用 进程 缓冲 数据 的 bufmod 模 块 ， 如 图 29-2 所 示 。 








应 用 H P | 


a a 


Vy 


pfmod pfmod 


(过 滤器 ) 


(过滤 器】 
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图 29-2 ”使 用 DLPI、pfmod 和 bufmod 捕 获 分 组 


从 概念 上 说 ， 这 两 个 模块 类 似 上 一 节 讲 解 的 BPF 开 销 降低 技 
ZR: pfmod 支 持 使 用 伪 机 右 的 内 核 中 过 滤 ，bufmod 则 通过 支持 捕获 长 度 
和 读 超时 减少 数据 量 和 系统 调用 次 数 。 


但 BPF 与 pfmod 两 者 在 过 滤器 所 支持 的 伪 机 器 类 型 上 存在 一 个 有 趣 的 
差别 。BPF 过 滤器 使 用 一 个 有 癌 无 环 控制 流 图 (CFG) ，pfmod 过 滤器 则 
使 用 一 个 布尔 表达 式 树 。 前 者 自然 地 映射 成 寄存 器 型 机 器 代码 ， 后 者 自 
然 地 映射 成 堆栈 型 机 器 代码 [McCanne and Jacobson 1993] 。 这 篇 论文 
出 BPF 使 用 的 CFG 实 现 通 常 比 pfmod 使 用 的 布尔 表达 式 树 实现 快 3~20 
倍 ， 具 体 取 决 于 过 滤器 的 复杂 程度 。 

男 外 ，BPF 总 是 在 复制 分 组 之 前 做 出 过 滤 决 策 ， 以 省 却 复制 将 被 于 
弃 的 分 组 。DLPI 则 因为 与 pfmod 模 块 相对 独立 而 可 能 不 得 不 增加 内 核 中 
的 分 组 复制 次 数 ， 具 体 取 决 于 实现 。 
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29.4 Linux: SOCK PACKET 和 PF PACKET 


Linux 先 后 有 两 个 从 数据 链 路 层 接收 分 组 的 方法 。 较 旧 的 方法 是 创 
建 类 型 为 SocK_PACKET 的 套 接 字 ， 这 个 方法 的 可 用 面 较 宽 ， 不 过 缺乏 灵 
活性 。 较 新 的 方法 创建 协议 族 为 PF_PACKET 的 套 接 字 ， 这 个 方法 引入 了 
更 多 的 过 滤 和 性 能 特性 。 我 们 必须 有 足够 的 权限 才能 创建 这 两 种 套 接 字 
(类 似 原 始 套 接 字 的 创建 )， 而 且 调 用 socket 的 第 三 个 参数 必须 是 指定 
以 太 网 帧 类 型 的 某 个 非 0 值 。 创 建 PF_pPACKET 套 接 字 时 ， 调 用 socket 的 第 
二 个 参数 既 可 以 是 sock_DGRAM， 表 示 扣 除 链 路 层 首 部 的 “者 
熟 ”(cooked) 分 组 ， 也 可 以 是 sock_RAw， 表 示 完 整 的 链 路 层 分 组 〈 以 大 
网 帧 ) 。socK_PACKET 套 接 字 只 返回 以 太 网 帆 。 举 例 来 说 ， 从 数据 链 路 
接收 所 有 帧 应 如 下 创建 套 接 字 : 

















fd = socket(PF PACKET, SOCK RAW, htons(ETH P ALL)); /* 较 新 方法 */ 
或 
fd = socket(AF INET, SOCK PACKET, htons(ETH P ALL)); /* 较 旧 方法 */ 





由 数据 链 路 接收 的 任何 协议 的 以 太 网 帧 将 返回 到 这 些 套 接 字 。 
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如 果 只 想 捕获 IPv4 帧 ， 那 就 如 下 创建 套 接 字 : 
fd = socket(PF PACKET, SOCK RAW, htons(ETH P IP)); /* 较 新 方法 */ 
zi 
fd = socket(AF INET, SOCK PACKET, htons(ETH P IP)); /* 较 旧 方法 */ 








用 作 socket 调 用 第 三 个 参数 的 常 值 还 有 ETH_P_ARP、ETH_P_IPV6 等 。 


指定 这 个 协议 参数 为 某 个 ETH_P_xxx 常 值 是 在 告知 数据 链 路 应 该 把 





由 它 接收 的 帧 中 哪些 类 型 的 帧 传递 给 所 创建 的 套 接 字 。 如 果 数 据 链 路 支 
持 混杂 模式 (例如 以 太 网 ) ， 那 么 需要 的 话 还 必须 把 设备 投入 混杂 模 
式 。 对 于 PF_PACKET 套 接 字 ， 把 一 个 网 络 接口 投入 混杂 模式 通过 设 

置 PACKET_ADD_MEMBERSHIP 套 接 字 选项 完成 ， 在 作为 setsockopt 第 四 个 参 
数 传 递 的 packet_mreq 结 构 中 需 指定 网 络 接 口 和 值 为 PACKET_MR_PROMISC 
的 行为 。 对 于 sock_PACKET 套 接 字 ， 投 入 混杂 模式 通过 使 用 SITocGIFFLAGS 
ioct1 获 取 标 志 ， 设 置 IFF_PRoMISc 标 志 ， 再 使 用 STocsIFFLAGSs 存 储 标 
志 。 不 事 的 是 ， 若 采用 此 方法 ， 多 路 混杂 监听 程序 可 能 互相 和 干扰， 而且 
设计 得 不 好 的 程序 可 能 在 退出 后 还 保持 着 混杂 模式 。 


Linux 的 数据 链 路 访问 方法 相 比 BPF 和 DLPI 存 在 如 下 差别 。 














Linux 方 法 不 提供 内 核 缓冲 ， 而 且 只 有 较 新 的 方法 才能 提供 内 核 过 
滤 〈 通 过 设置 so_ATTACH_FILTER 套 接 字 选项 安装 ) 。 尽 管 这 些 套 接 
字 有 普通 的 套 接 字 接收 缓冲 区 ， 但 是 多 个 帧 不 能 缓冲 在 一 起 由 单个 
读 入 操作 一 次 性 地 传递 给 应 用 进程 。 这 么 一 来 势必 增长 从 内 核 到 应 
用 进程 复制 大 量 数据 所 涉及 的 开销 。 

Linux 较 旧 的 方法 不 提供 针对 设备 的 过 滤 。【〔 较 新 的 方法 可 以 通过 
调用 bind 与 某 个 设备 关联 。) 如 果 调 用 socket 时 指定 了 ETH_P_IP， 
那么 来 自任 何 设备 (例如 以 太 网 、PPP 链 路 、SLIP 链 路 和 回馈 设 
备 ) 的 所 有 IPv4 分 组 都 被 传递 到 所 创建 的 套 接 字 。recvfrom 将 返回 
一 个 通用 套 接 字 地 址 结构 ， 其 中 的 sa_data 成 员 含 有 设备 名 字 〔 例 
如 ethgo) 。 应 用 进程 然后 必须 自行 丢弃 来 自任 何 非 所 关注 设备 的 数 
据 。 这 里 的 问题 仍然 是 可 能 会 有 太 多 的 数据 返回 到 应 用 进程 ， 从 而 
妨碍 对 于 高 速 网 络 的 监视 。 





29.5 libpcap: 分 组 捕获 函数 库 


libpcap 古 访 问 操作 系统 所 提供 的 分 组 捕获 机 制 的 分 组 捕获 函数 
库 ， 它 是 与 实现 无 关 的 。 目 前 它 只 文 持 分 组 的 读 入 当然 只 需 往 该 函数 
库 中 增加 一 些 代码 行 束 可 以 让 调用 者 写 出 数据 链 路 分 组 )。 下 一 市 讲解 


TA 函数 库 不 仅 支持 写 出 数据 链 路 分 组 ， 而 且 可 以 构造 任意 协议 的 
分 组 。 
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libpcap 目 前 文 持 源 自 Berkeley 内 核 中 的 BPF、Solaris 2.x 和 HP-UX 中 
BJDLPI. SunOS 4.1.x 中 的 NIT、Linux 的 SocK_PACKET 套 接 字 和 PF_PACKET 
套 接 字 ， 以 及 其 他 知 干 操作 系统 。tcpdump 就 使 用 该 函数 库 。1libpcap 由 
大 约 25 个 函数 组 成 ， 不 过 我 们 不 准备 单独 讲解 这 些 函 数 ， 而 是 在 再 下 一 

节 以 一 个 完整 的 例子 给 出 其 中 常用 函数 的 实际 用 法 。 所 有 库 函 数 均 以 
pcap_ 前 级 打头 pcap 手 册页 面 详细 讲解 了 这 些 函 数 。 


该 函数 库 可 以 从 http:/www.tcpdump.org/ 公 开 获 取 。 


29.6 libnet: 分 组 构造 与 输出 函数 库 


libnet 冰 数 库 提供 构造 任意 协议 的 分 组 并 将 其 输出 到 网 络 中 的 接 
P 它 以 与 实现 无 关 的 方式 提供 原始 套 接 字 访问 方式 和 数据 链 路 访问 方 
工 No 


libnet 隐 藏 了 构造 ITP、UDP 和 TCP 首 部 的 许多 细节 ， 并 提供 简单 且 
便于 移植 的 数据 链 路 和 原始 套 接 字 写 出 访问 接口 。 与 1ibpcap 一 
样 ，Libnet 也 由 许多 函数 组 成 。 我 们 将 在 下 一 节 给 出 的 例子 中 展示 其 中 
若干 个 函数 的 用 法 ， 并 与 直接 使 用 原始 套 接 字 所 需 的 代码 相 比 
较 。1Libnet 的 所 有 库 函 数 均 以 libnet_ 前缀 打头 。1libnet 手 册页 面 和 在 线 
手册 详细 讲解 了 这 些 函数 。 





libnet PA Zt Fi n] UJ Jl http://www.packetfactory.net/libnet/ 7: 7T 3« EX, 
在 线 手册 是 http:/www.packetfactory.net/ibnet/manual/。 编 写本 书 时 唯一 
可 用 的 手册 是 不 再 支持 的 版 本 1.0 的 ; 受 支 持 的 版 本 1.1 在 API 上 变动 较 
大 。 本 例子 是 用 版 本 1.1 的 API。 
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我 们 现在 开发 一 个 例子 程序 ， 它 向 一 个 名 字 服 务 器 发 送 含 有 某 个 
DNS 查 询 的 UDP 数 据 报 ， 然 后 使 用 分 组 捕获 函数 库 读 入 应 答 。 本 例子 程 
序 的 目的 是 确定 这 个 名 字 服 务 句 是 否 计 算 UDP 校 验 和 。 对 于 IPv4，UDP 
校 验 和 的 计算 是 可 选 的 。 如 今 大 多 数 系 统 默认 就 开局 校 验 和 ， 不 过 较 老 
的 系统 ( 尤 如 SunOS 4.1.x) 默认 禁止 校 验 和 。 当 今 所 有 系统 (特别 是 运 
行 名 字 服 务 器 的 系统 ) 都 应 该 总 是 开启 UDP 校 验 和 ， 否 则 受 损 的 数据 报 
有 可 能 破坏 服务 器 的 数据 库 。 


开启 和 禁止 UDP 校 验 和 通常 是 基于 系统 范围 设置 的 ， 如 TCPv1 附 录 
E 所 述 。 

我 们 将 自行 构造 UDP 数据 报 〈 即 DNS 查询 ) ， 并 把 它 写 出 到 一 个 原 
始 套 接 字 。 这 个 查询 使 用 普通 的 UDP 套 接 字 就 可 以 发 送 ， 不 过 我 们 想 展 
示 如 何 使 用 IP_HDRINCL 套 接 字 选项 构造 一 个 完整 的 IP 数 据 报 。 
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另 一 方面 ， 我 们 无 法 在 从 普通 UDP 套 接 字 读 入 时 获取 UDP 校 验 和 ， 
使 用 原始 套 接 字 也 无 法 读 入 UDP 或 TCP 分 组 〈28.4 节 ) 。 因 此 我 们 必须 
使 用 分 组 捕获 机 制 获取 含有 名 字 服 务 器 的 应 答 的 完整 UDP 数据 报 。 

我 们 还 检查 所 获取 UDP 首部 中 的 校 验 和 字段 ， 如 果 其 值 为 0， 那 么 
人 UM 
JY. 


图 29-3 汇 总 了 本 程序 的 操作 。 






















应 用 进程 


libcapffiffT 





el EEUU 


分 组 捕获 
一 ”一 一 一 一 一 一 一 一 一 —— 


UDP 数 据 报 《名 学 服务 器 应 答 》 
图 29-3 ”检查 菜 个 名 字 服 务 器 是 否 开启 UDP 校 验 和 的 应 用 程序 


我 们 把 自行 构造 的 UDP 数 据 报 写 出 到 原始 套 接 字 ， 然 后 使 

用 1ibpcap 读 回 其 应 答 。 注 意 ，UDP 模 块 也 接收 到 这 个 来 自 名 字 服 务 器 
的 应 答 ， 并 将 响应 以 一 个 ICMP 端 口 不 可 达 错 误 ， 因 为 UDP 模块 根本 不 
知道 我 们 为 自行 构造 的 UDP 数 据 报 选用 的 源 端 口号 。 名 字 服 务 器 将 忽略 
这 个 ICMP 错 误 。 我 们 同时 指出 ， 使 用 TCP 编 写 一 个 如 此 形式 的 测试 程 
序 比较 困难 ， 因 为 尽管 我 们 很 容易 把 自行 构造 的 TCP 分 节 写 出 到 网 络 ， 
但 是 对 于 我 们 如 此 产生 的 TCP 分 节 的 任何 应 答 却 通常 导致 我 们 的 TCP 模 
块 响应 以 一 个 RST， 结 果 是 连 三 路 握手 都 完成 不 了 。 


绕 过 这 个 难题 的 方法 之 一 是 以 属于 所 连接 子 网 的 某 个 当前 未 被 使 用 
的 JP 地址 为 源 地 址 发 送 TCP 分 节 ， 并 且 事 先 在 发 送 主 机 上 为 这 个 新 人 P 地 
址 增加 一 个 ARP 表 项 ， 使 得 发 送 主机 能 够 回答 对 于 这 个 新 地 址 的 ARP 请 
求 ， 但 是 不 把 这 个 新 IP 地 址 作为 别名 地 址 配置 在 发 送 主 机 上 。 这 将 导致 
发 送 主机 上 的 人 Pp 协议 栈 丢弃 所 接收 的 目的 地 址 为 这 个 新 地 址 的 分 组 ， 前 
提 是 发 送 主机 并 不 用 作 路 由 器 。 
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图 29-4 是 构成 本 程序 的 函数 的 汇总 。 
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图 29-4 udpcksum 程 序 中 的 函数 汇总 


图 29-5 给 出 头 文件 udpcksum.h， 它 包含 我 们 的 基本 头 文 件 unp.h 以 及 
访问 卫 和 UDP 分 组 首部 的 结构 定义 所 需 的 各 个 系统 头 文件 。 


uapecksur ad peksum.l 
L #inclede * ung . i! 
2 *inclvds <Scap.h> 


3 include «nezinect/in cvotm.n» /* required tor ip.h */ 
4 #include «nezinec/in.b» 

5 incide «ne-inec/ip.b» 

6 4inciude «nezinec/ip var.n» 

7 *inc.vdc «nezinec/ucp.h» 

8 4include «ne-inecz/uóp var.h» 

9 3incivde ene-/if.h» 


10 4inciude «ne-zinec/if ether, n> 


1l 4detane TTL_OJT 64 /* outqoing TIL */ 
12 /* declare glo2al ve-iables */ 

13 patern struct sockaddr Adest, *10c81; 

14 extern socklen_= destler., locallen; 


15 extern int datalink; 
16 extern char *device; 
17 extern pcap t *pd; 

18 extern int rawfd; 

18 extern int snaplen; 
20 extern int  verbcss; 
2: extern int  zerosum; 


22 /* fanction pratatyoes */ 
23 vaid cleanup (int ; 

24 char *"next. reap(int. *); 

25 vaid open cu-pat (void); 

26 vaid open zcap(void); 

27 void send ins query (void) ; 

28 void test udp'void!; 

29 void usp_write(char +*+, inti; 

30 struct udpiphdr *udp rcad!voii|; 


udpeksamuapexsum.h 
图 29-5 | udpcksum.h3 xc fF 
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3-10 ”处理 了 P 和 UDP 首部 字段 需要 额外 的 网 际 网 头 文件 。 
11-29 定义 一 些 全 局 变量 和 相关 函数 的 原型 。 


图 29-6 给 出 main 函 数 的 第 一 部 分 。 


uclpakstunnrain.c 


1 #include "uzpcksur.2a' 

2 j DefinZ qlobal variables */ 

3 struct sockaddr *dcot, *l1ocal; 

4 gzruct ecckaddr_in locallooxup; 

5 socklen t destlen, locallen; 

& int datalink; /* from pcap datalink(), in -nst/bzf.h* */ 

7 char *device; /* pcap device */ 

5 pcep t *rd; /* packet capture struct pointer */ 

9 int rawfd: /* raw &OCker to write on */ 

10 :nt snaples = 200; /* amount of data to capture */ 

11 int verbose; 

12 int zerosum; /* send UDP query with no checksum */ 

13 static void usage (consi. char à); 

14 int 

15 nain!inz arqc, char *arqv[.) 

16 . 

17 int c, lcpts; 

18 char *ptr, localname [1024], *localport: 

19 otrucz addrirfo taip; 
udpeksiminain. c 

图 29-6 maini žt: 定义 
人 : K RA oe Le DAZ BM 
图 29-7 给 出 main 函 数 的 下 一 部 分 ， 它 处 理 命令 行 参数 。 

udpoksemvnain.c 

20 opLer- = 0; /^ do 'L want geLopLi? writing te stderr */ 

21 while ( (c ~ getopc!argc. argu, "Oi:l:v")) ‘= -2) { 

az switch ic) 1 

23 case I'r: 

24 zerosum - 1; 

25 break; 

26 case 'i': 

了 device = optarg; /^ peap device */ 

28 break; 

29 zase 'l': /* local IP address ani port f$: a.b.c.d.p */ 

30 if ; í(pt- = strrenr(optarg, '.')) == NULL) 

31 usagci"invalià 1 option"); 

32 piri = 0; {* full replaces tina. period */ 

33 localpcrt - ptr; /* service name or port mmber */ 

34 strncpy/locslname, op-arg, sizeof (localname) } ; 

35 lopt = 1r 

36 prea; 

7 cage ‘v's 

36 verbose - 1; 

a9 break; 

aa case '?': 

ai usage ("unrecognized option"); 

a2 } 

45 ] 
udpoksum/main,. c 


图 29-7 main 函数 : 处 理 命令 行 参数 


处 理 命 令 行 参 数 


20-25 ”调用 getopt 处 理 命令 行 参数 。-0 选 项 即 要 求 不 设置 UDP 校 
验 和 就 发 送 UDP 查 询 ， 以 便 查 看 服务 器 对 它 的 处 理 是 否 不 同 于 对 设置 了 
校 验 和 的 数据 报 的 处 理 。 
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26-28 “-i 选 项 用 于 指定 接收 服务 器 的 应 答 的 接口 。 如 果 这 个 接口 
未 曾 指定 ， 分 组 捕获 函数 库 将 会 选择 一 个 ， 不 过 选 定 的 接口 在 多 牡 主 机 
上 也 许 不 正确 。 从 分 组 捕获 设备 读 入 与 从 普通 套 接 字 读 入 的 差别 之 一 就 
体现 在 此 : 使 用 套 接 字 的 话 我 们 可 以 通 配 本 地 地 址 ， 从 而 允许 我 们 接收 
到 达 任 意 接口 的 分 组 ;， 然而 如 果 使 用 分 组 捕获 设备 ， 我 们 就 只 能 在 单个 
接口 上 接收 到 达 的 分 组 。 


我 们 指出 Linux 的 sock_PACKET 方 法 并 没有 把 它 的 数据 链 路 捕获 限定 
在 单个 设备 。 尽 管 如 此 ，1libpcap 却 基于 其 默认 设置 或 我 们 的 -i 选项 提 
供 限定 接口 形式 的 过 滤 。 


29-36 ”-1 选 项 用 于 指定 源 IP 地 址 和 源 端 口号 。 在 本 选项 的 参数 
中 ， 端 口号 〈 或 服务 名 ) 是 其 中 最 后 一 个 点 号 之 后 的 部 分 ， 源 IP 地 址 是 
其 中 最 后 一 个 点 号 之 前 的 部 分 。 
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图 29-8 给 出 main 函 数 的 最 后 一 部 分 。 


ucpksimntain.c 


44 if (optind t= argc-2! 

45 usags("nissing «hosts ard/or <serv>"); 

46 /* convert destination rare and service */ 

47 aip - Host serv(arav[optind], atqv;cprindel1., AP INET, SOCK DGRAM), 
48 dest = aip-»a- adr; /* don't. freeaddrinfo() */ 

49 destlen = zip-»ai addrlen; 

50 /* 

ET + Need local IP address for source IP address for UDP datagrams. 
t2 * Can't specify 0 and let IP choase, as we nezd tc knew it for 
53 * rhe psendoheader =o calculata rhe UDP checksum 

54 * If -l optior supplied, ther ues those values; otherwise, 

25 * connect a UDP socket zo the destination to determine the right 
t6 * source address. 

ET Lae 

Eg it (1opt) { 

59 /* convert local name and service */ 

£0 aip = Fost_servilocalname, lo-calpar-, AF TNET, SOCX DGRAM); 
éi local = aip-sai_addr; /* don't frseaddrinzo() */ 

£2 locallcn = aip->ai addzlen: 

63 } else ( 

Få int S; 

ES S = Socket (AF_INET, SOCK CGRAM, 0); 

66 Connect [s, des-, destler); 

67? /* kernel chooses correct local add=ess for dest */ 

ER Yorcallen = sizebntiluca!Yockup) ; 

E lecal ~ (struct sockaddr *} siccallockup: 

70 Setesckname ic, local, £locallen!; 

71 i= [locallcokup.sin addr.s adda == htorl(-NACDR ANY): 

72 err quit("Can't determine local address - use -1\n"): 

73 close(s); 

74 } 

75 open_cutput () , /* open output, either rew scckez or libnet */ 
"6 opes peapt) : /* open packe) capture device 4/ 
71 seraddi(gercvid():: /* don'r nesd superuser privileges anymore */ 
78 Signal /SIGTERM, cl8anmup); 

79 Signal (SIGINT, cleanup! , 

FO Signal (SIGRUP, cleanup! ; 

gl resr udpi!; 

82 cleanup (0); 

£3 | 


udpoksim/niain.c 


图 29-8 main: 转换 主机 名 和 服务 名 ， 创 建 套 接 字 
处 理 目的 主机 名 和 端口 


46-49 “验证 剩余 命令 行 参数 恰好 是 两 个 : 运行 DNS 服务 器 的 目的 
主机 名 或 耳 地 址 ， 以 及 服务 器 的 服务 名 〈domain ) 或 端口 号 (53) 。 调 
用 host_serv 把 这 两 个 参数 转换 成 一 个 僚 接 字 地 址 结构 ， 并 把 指向 该 结 
构 的 指针 存 入 dest。 
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50-74 ”如 果 本 地 主机 名 (或 I P 地 址 ) 和 端口 已 经 作为 命令 行 -1 选 
项 的 参数 指定 ， 那 就 对 它们 执行 同样 的 转换 ， 并 把 指向 转换 出 的 套 接 字 
地 址 结构 的 指针 存 入 local。 否 则 我 们 通过 把 一 个 UDP 套 接 字 连接 到 日 
的 地 确定 由 内 核 选 定 的 本 地 IP 地 址 和 临时 端口 号 ， 存 放 在 由 local 指 向 
的 套 接 字 地 址 结构 中 。 既 然 我 们 将 自行 构造 DNS 碍 询 的 了 P 首 部 和 UDP 首 
部 ， 在 写 出 该 UDP 数据 报 之 前 我 们 必须 知道 源 耳 地址。 我 们 不 能 让 它 保 
留 0 值 以 便 由 耳 模 块 为 它 选择 实际 值 ， 因 为 它 是 UDP 伪 首 部 〈 我 们 稍 后 
讲解 ) 的 一 部 分 ， 而 UDP 校 验 和 计算 必须 使 用 伪 首 部 。 


创建 原始 套 接 字 并 打开 分 组 捕获 设备 


75-76 ”调用 open_output 函 数 创建 一 个 原始 套 接 字 并 开 
局 IP_HDRINCL 套 接 字 选项 ， 我 们 于 是 可 以 往 这 个 套 接 字 写 出 包括 了 了 首部 
在 内 的 完整 JP 数据 报 。open_output 还 有 一 个 使 用 Libnet 实 现 的 版 本 。 然 
后 调用 我 们 接 痢 给 出 的 open_pcap 函 数 打 开 分 组 捕获 设备 。 


改变 权限 并 建立 信号 处 理 函 数 


77-80 创建 原始 套 接 字 需 要 超级 用 户 特权 。 打 开 分 组 捕获 设备 通 
常 同样 需要 超级 用 户 特 权 ， 不 过 具体 取决 于 实现 。 壁 如 说 对 于 BPF， 管 
理 员 可 以 根据 系统 所 需 设 置 /dev/bpf 设 备 的 访问 权限 。 既 然 已 经 完成 特 
权 操 作 ， 我 们 于 是 放弃 这 个 额外 的 特权 ， 假 定 这 个 特权 确实 是 因为 程序 
文件 具有 setuid 到 root 的 属性 而 额外 获取 的 。 具 有 超级 用 户 特权 的 进程 
调用 setuid 将 把 它 的 实际 用 户 ID、 有 效用 户 ID 以 及 保存 的 重 设 用 户 
ID (set-user-ID) 都 设置 为 当前 的 实际 用 户 ID (getuid 的 返回 值 ) 。 为 
和 tee 我 们 要 建立 一 些 信 号 处 理 函 

















执行 测试 与 清理 

81-82 ”test_udp 函 数 ( 图 29-10〉 进行 本 程序 的 测试 任务 后 返 
回 。cleanup 函 数 〈 图 29-18) 显示 来 自分 组 捕获 函数 库 的 统计 结果 后 终 
IEXERE. 
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ucljn-ksinirpeay. i 


7 &inclTule "ulpck sim. h" 
2 fdefine ME "udp and src host ts and src porr $d" 
3 void 
4 open pear (void! 
5 | 
6 uinc32 t leecalnet, netmesk; 
3 char cmd.MAXLLINE], errzuf£[rzCAP ERBBUF Size], 
8 atrl lINET ADDGRSTRLEN|, str2lINET_ADDRSTRLENI ; 
3 struct bpf program fcoce; 
10 it (device == NULL) [ 
La if | (device - peap icoxupdey(errbuft)) -- NULL! 
12 rr aquit('pcap lockup: 95", ¢errbut) ; 
13 } 
14 print? ("dev ne = gajn", device]; 
15 /* hardcode: promisc-0, to mg-500 */ 
1€ iz ( (pd = poar open live(device, snaplen, 0, 507, errbuz); << NULL) 
了 err_quit ("peap_copen_cive: $35', errbutl; 
18 iT (peap leokupnet (device, &localwn:, netmask, -rrbuf) c 0) 
19 arr quit('pcap lookupnec: +s, errtuf); 
20 it (verbose) 
21 rzrintzf("localnet = ts, necmask = &siz*, 
22 I-se- ntop(AF TNET, &locelnet, stri, sizeotistr1]), 
23 Inet_ntop(AF_INET, netmask, str2, sizeof (str2)}); 
24 snprintf(cwd, sizeof(cmd!, CMO, 
25 Sock nbtop bost (dest, des len!, 
26 nzons(sock get pert dest, destlsn))); 
27 it (verbose) 
28 prinLf("cmd = ts\u", coed); 
29 i? (peap_ccmoile(pd, afcose, cmd, 0, netmask) < 0) 
30 err quit('pcap cCompi.c: $5", pcap scterr(pd)}; 
3i it (pcep setfilter(pd, &z-zo3e) < 2) 
a2 err quit ("pcap serfi'-er: ts, pcap gererr(pd)!; 
33 if ( (Gatalink = peap datalinx(pd)) < 0) 
34 err quit('pcap 3atalink: %3", pcap getzrr.pdl):; 
35 i= (verbose] 
i6 printf ("datalink = d\n", datalink), 
4 
] 


udpcksmapcar.c 


图 29-9 open pcapPAZX: 打开 并 初始 化 分 组 捕获 设备 
选择 分 组 捕获 设备 


10-14 如果 分 组 捕获 设备 未 曾 指定 〈 通 过 -i 命 令 行 选 项 ) ， 那 就 
调用 pcap_lookupdev 函 数 选择 一 个 设备 。 该 函数 发 出 STocGIFCONF ioctl 
命令 选择 索引 号 最 小 的 在 工 〈 即 UP 状态 ) 设备 ， 不 过 环 回 接口 除外 。 
许多 pcap 库 函数 在 出 错时 填写 一 个 出 错 消息 串 。 传 递 给 pcap_lookupdev 
的 唯一 参数 就 是 一 个 用 于 填写 出 错 消息 串 的 字符 数组 。 


打开 设备 


15-17 调用 pcap_open_live 打 开 这 个 设备 。 函数 名 中 的 “live” 表 明 
所 打开 的 是 一 个 真实 的 设备 ， 而 不 是 一 个 含有 先前 保存 之 分 组 
的 “save” 文 件 。 该 函数 的 第 个 参数 是 设备 名， ug op OR 
的 保存 字 节 数 (snaplen， 在 图 29- 6 中 被 初始 化 为 200) ， 三 个 参数 是 
混杂 标志 ， 第 四 个 参数 是 以 宫 秒 为 单位 的 超时 值 ， 第 五 个 参数 是 指向 某 
个 用 于 返回 出 错 消息 串 的 字符 数组 的 指针 。 
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如 果 设 置 了 混杂 标志 ， 网 络 接口 就 被 投入 混杂 模式 ， 导 致 它 接收 在 
电缆 上 流 经 的 所 有 分 组 。 对 于 tcpdump 这 是 通常 的 模式 。 然 而 对 于 我 们 
的 例子 ， 来 和 目 DNS 服务 需 的 应 答 将 被 发 送 到 DNS 碍 询 的 发 送 主机 《 即 运 
行 本 程序 的 主机 ) ， 因 而 无 需 设置 混杂 标志 。 


超时 参数 指 的 是 读 超 时 。 要 是 每 收 到 一 个 分 组 就 让 设备 把 该 分 组 返 
送 到 应 用 进程 ， 那 会 引起 从 内 核 到 应 用 进程 的 大 量 个 体 分 组 复制 ， 因 而 
效率 可 能 比较 低 。1Libpcap 仅 当 设 备 的 读 缓冲 区 被 填 满 或 读 超 时 发 生 时 
如 果 把 超时 值 设 置 为 0%， 那 么 每 个 分 组 一 经 接收 就 被 返 











获取 网 络 地 址 与 子 网 掩 码 

18-23 ”pcap_lookupnet 返 回 分 组 捕获 设备 的 网 络 地 址 和 子 网 掩 码 。 
我 们 接 下 去 调用 pcap- m ge Oey 因为 分 组 过 滤 
器 需要 拿 它 来 确定 一 个 卫 地 址 是 否 为 一 个 子 网 定向 广播 地 址 。 
编译 分 组 过 滤器 

24-30 ”pcap_compile 把 我 们 在 cmd 字 符 数 组 中 构造 的 过 滤器 字符 串 
编译 成 一 个 过 滤器 程序 ， 存 放 在 fcode 中 。 这 个 过 滤器 将 选择 我 们 希望 
接收 的 分 组 。 
装载 过 滤器 程序 


31-32 ”pcap_setfilter 把 我 们 刚 编译 出 来 的 过 滤 右 程序 装载 到 分 组 
捕获 设备 ， 同 时 引发 对 我 们 用 该 过 滤器 选取 的 分 组 的 捕获 。 








确定 数据 链 路 类 型 


33-36  pcap datalin ki [n] 分 组 捕获 设备 的 数据 链 路 类 型 o 当 接 收 
和 大 小 (图 29-15) 。 


调用 open_pcap 之 后 main 函 数 接 痢 调用 如 网 29-10 所 示 的 test_udp。 
该 函数 发 送 一 个 DNS 查询 ， 并 读 入 服务 器 的 应 答 。 








uapcksumudpcksum.c 

12 void 

13 test u Ip{vaid) 

14 

1s volatile int nsent - 0, timeout - 3; 

Lë struct ucpiphdr tuí; 

li Signsl(SIG^LHM, cig alrm!; 

18 a= {ciooct mo mpbut, 1)! 

19 if (nsens se 2 

20 err_quit ("n> response") ; 

21 printf ("-imeoutNin"); 

22 t-mecur *= 2: f» exponential beckof^: 3, 6, 12 +f 
23 ) 

24 canjump = 1; /* szzlcngjmp is now OK */ 

25 send drs query(); 

26 negent; 

27 Slarm(timecut) ; 

26 ui - ucp_read!); 

29 canjure ~ 2, 

30 alarm(C} ; 

32 i= (ui-»:i sum == 4) 

32 princf ("oP checksums offin"); 

33 else 

34 zrintf ("UDP checksums on\n"); 

35 iz (verbose) 

36 rintt ("receives UDP checksum = tx\n", nsohs(ui->ui_sum) ] ; 
37 J 

uapeksumudpeksum.c 
X" ET SEVA p? 
图 29-10 test_udp 函 数 : 发 送 DNS 碍 询 并 读 取 应 答 
x EH 
volatile 变 量 


15 ”我 们 希望 两 个 自动 变量 nsent 和 timeout 在 从 信号 处 理沙 
数 siglongjmp 到 本 函数 之 后 保持 它们 的 值 不 变 。 有 具体 实现 允许 
在 siglongjmp 之 后 把 自动 变量 恢复 成 调用 sigsetjmp 时 刻 的 值 (APUE 第 
a DUCUM OS 
初始 值 。 











建 并 信号 处 理 函 数 和 跳 转 缓冲 区 


17-18 ”调用 signal 建 六 SIGALRM 信 号 的 处 理 函 数 ， 再 调用 sigsetjmp 
为 siglongjmp 准 备 一 个 跳 转 缓冲 区 。 (APUE 的 10.15 节 详细 讲解 了 这 两 
cs ) 传递 给 sigsetjmp 的 第 二 个 参数 为 1 是 在 告知 该 函数 保存 当前 

号 掩 码 ， 因 为 我 们 将 从 信号 处 理 函 数 中 调用 siglongjmp。 


处 理 siglongjmp 


19-23 ”这 段 代码 仅 当 siglongjmp 从 我 们 的 信号 处 理 函 数 中 调用 之 后 
才 被 执行 。 如 此 情形 表明 发 生 了 超时 : 我 们 发 送 了 一 个 请 求 ， 但 是 一 直 
没有 收 到 任何 应 答 。 如 果 我 们 已 发 送 了 3 个 请 求 ， 那 束 终 止 进程 。 否 则 
显示 一 条 消息 并 倍增 超时 值 。 这 就 是 我 们 在 22.5 节 讲解 过 的 指数 回 退 
(exponential backoff) 。 首 次 超时 值 为 3 秒 ， 然 后 依次 是 6 秒 和 12 秒 。 


802 


我 们 在 本 例子 中 使 用 sigsetjmp 和 siglongjmp， 而 不 是 简单 地 捕获 
EINTR (如 图 14-1) ， 其 原因 在 于 分 组 捕获 函数 库 的 读 函 数 〈 由 我 们 的 
udp_read 函 数 调用 ) 在 read 操 作 返 回 EINTR 错 误 时 将 重新 局 动 该 操作 。 既 
然 我 们 不 想 为 了 返回 EINTR 错 误 而 修改 这 些 库 函 数 ， 唯 一 的 解决 办 法 整 
是 捕获 STGALRM 信 号 并 执行 一 个 非 本 地 的 长 跳 转 ， 让 控制 返回 到 我 们 的 
代码 ， 而 不 是 信号 函数 执行 完毕 仍然 返回 到 函数 库 代 码 。 


发 送 DNS 查 询 并 读 入 应 答 

25-30 send dns queryPKZk (129-12) 用 于 问 一 个 名 字 服 务 器 发 
iS—*SDNS# Ý, udp_readeh žit (429-15) 用 于 读 入 应 答 。 在 读 入 应 答 
之 前 我 们 调用 alarm 以 防止 读 操作 永久 阻塞 。 当 所 指定 的 超时 期 满 时 ， 
内 核 将 产生 SITGALRM 信 号 ， 使 我 们 的 信号 处 理 函 数 调 用 siglongjmp。 
检查 收 到 的 UDP 分 组 的 校 验 和 


31-36 如果 所 接收 的 UDP 校 验 和 为 0， 那 么 名 字 服 务 器 未 曾 计 算 并 
发 送 校 验 和 。 


图 29-11 给 出 我 们 的 信号 处 理 程序 sig_alrm， 它 处 理 STGALRM 信 和 号。 











uapcksum/wdpcksum.c 
#include "uzZpcksur,2a' 
#include <scetjmo.h> 


bor 


static ciqjmp_iut jnpbut; 
static int canjurp; 


LN 


void 
sig alrm!irt signo) 


iE (canjump == 0) 
return; 
siglongjmpijmpbuf, 1); 


He 
c 


udpcksum wdpcksum.c 


图 29-11 sig alrm žit: 处 理 SIGALRM 信 号 


8-10 ”canjump 标 志 是 在 图 29-10 中 跳 转 缓冲 区 被 初始 化 之 后 设置 
的 ， 并 在 读 入 应 管 之 后 清除 。 我 们 在 该 标志 已 经 设置 的 前 提 下 调 
用 siglongjmp， 致 使 控制 流 变 成 仿佛 图 29-10 中 的 sigsetjmp 返 回 了 值 1。 
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图 29-12 给 出 send_dns_query 函 数 ， 它 构造 了 一 个 DNS 查 询 ， 并 通过 
原始 套 接 字 把 该 UDP 数 据 报 发 送 给 名 字 服 务 器 。 


uclpcksum/serndársauery-rew.c 


6 void 

7 send dns query (void) 

8 | 

9 siza = nbytcs; 

10 enar *"Duf, *p-rj 

1L buf = Malloc(sizeof (struct udpich3r) + 100): 

12 ptr = buf + sizecf(srzruc- udpiphdr); /* leave room for IP/UDP headers */ 
13 *(iuintl6 t à) ptr) = htomsi1z3a); /* idsntifica-ion */ 

14 pir +a 2; 

15 *(iuintlé t 4) ptr) = htonsi0x01l00); /^ flags: recursion desired “/ 
16 ptr += 2; 

17 *"(luintl6 t *) ptr) = htons!1); /* # questions */ 

18 ptr += 2; 

19 v(iuintló t *! ptr) = 0; /* 4 answer RRs */ 

20 tr += 2i 

2L *(iuintl6ó t *; ptr) = 0; /* 4 authority RRs */ 

z2 ptr += 2; 

23 *(iuintlé t +; ptr) = 0j /* 4 additional RE */ 

x4 tr i= 2; 

i5 mencpy (ptr, "ic01aW0l4root-servsrgMJU3netiUOC", 20); 

246 prr +- 20; 

27 *(iuintl6 t *} ptr) = htonsil): /* query type = A */ 

ZR prr += 2; 

29 *(iuintié t ^j; ptr) = htousí1): /* query class = 1 [IP ackir) 4/ 
30 ptr += 2; 


noytes = (ptr - tuf) - sizeof(struct udpiphdr) ; 
udp_write (buf. nzytes]; 
if (verbose) 

printz(*sent: td bytes of data\n". nbytes! ; 


LJ € td LJ 12 
wb to NI 


ucpeksumsandansauery-row.c 


29-12 send dns queryPAZÀ: 向 DNS 服 务 器 发 送 一 个 查询 
分 配 绥 冲 区 并 初始 化 指针 


11-12 ”使 用 malloc 分 配 缓 冲 区 buf， 它 足以 存放 20 字 节 的 IP 首 部 、8 
字 节 的 UDP 首 部 以 及 100 字 市 的 用 户 数 据 。 把 指针 ptr 初 始 化 为 指 同 用 户 
数据 的 第 一 个 字 节 。 


构造 DNS 查询 


13-24 ”理解 由 本 函数 构造 的 UDP 数据 报 的 细节 需要 了 解 DNS 消息 
格式 ， 参 见 TCPv1 的 14.3 节 。 这 里 我 们 设置 标识 字段 为 1234， 标 志 为 0， 
问题 数 为 1， 至 于 资源 记录 (RR) ， 我 们 把 回答 RR 数 、 权 威 RR 数 和 额 
外 RR 数 都 设置 为 0。 


25-30 ”我们 接着 构造 这 个 DNS 消息 中 后 跟 的 单个 问题 : Trig 
机 a.root-servers.net 的 IP 地 址 。 这 个 域名 存放 在 20 个 字 节 中 ， 由 4 个 标 
签 构 成 :1 字 节 标签 a、12 字 节 标 签 root-servers (注意 \014 是 一 个 八 进 
制 字符 常数 ) 、3 字 节 标 签 net 和 长 度 为 0 的 根 标签 。 查 询 类 型 为 1( 称 为 
ABW) ， 查 询 类 别 也 为 1。 
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写 出 UDP 数 据 报 


31-32 ”这 个 消息 由 36 个 字 节 的 用 户 数据 构成 〈8 个 2 字 节 字段 和 单 
个 20 字 节 域 名 ) ， 不 过 我 们 通过 计算 缓冲 区 内 当前 指针 和 缓冲 区 起 始 位 
置 之 差 得 出 消 恩 长 度 ， 以 免 每 次 变动 待 发 送 消 息 的 格式 束 得 修改 这 个 常 
数 (36) 。 最 后 调用 我 们 的 udp_write 函 数 构造 UDP 和 TIP 首 部 ， 并 把 构 
造 完毕 的 IP 数 据 报 写 出 到 原始 套 接 字 。 


[29-1328 1H. f open output KAŽ. 





udpoksem/udpwrite.c 





2 int rawfd; /* raw socket to write on */ 

3 void 

4 open oJtpu- void! 

v. 

6 int o=]; 

了 J^ 

a * Neec a raw socket to write our own IP datagrams to. 

5 * Process must have superuser privileges to create this socket. 
10 * Also must set IP HDRINCL so we can write sur own IP headers. 
11 27 

12 rawfd = Socket (des-- >sa Samily, SOCK RAN, 0); 

13 Setsockopt(rawfd, IPPROTO IP, iP _HDRINCL, or, sízeoficn!): 

14 ] 


ucpcksum/udpwrite.c 


[29-13 open output?A Zik: 准备 原始 套 接 字 
声明 原始 套 接 字 描 述 符 
2 声明 存放 原始 套 接 字 描 述 符 的 全 局 变量 。 
创建 原始 套 接 字 并 开启 IP_HDRINCL 


7-13 ”创建 一 个 原始 套 接 字 并 开启 IP_HDRINCL 套 接 字 选项 。 该 选项 
允许 我 们 往 套 接 字 写 出 包括 IP 首 部 在 内 的 完整 IP 数 据 报 。 


图 29-14 给 出 了 udp_write 函 数 ， 它 构造 IP 和 UDP 首部 并 把 结果 数据 
报 写 出 到 原始 套 接 字 。 





icIpcksum/udpwrite.c 


19 void 

20 udp wri-e(cha- *Luf, int uses ler.) 

"CEN 

22 s-ruc- udpipbdr *ui; 

23 strt ip *ip: 

i4 /* fill in and checksum UDP header */ 

25 ip = (struct ip *] but; 

26 ui = (struct uZpipbdr *) buf; 

27 bzerolui, size»of£(*uil); 

28 /* add 8 to userlen for pseudcheader length */ 

29 ui-sui_len = hhons(fulnt 16_t} (a zeof (sc nat udphde) + user ec); 
30 /* then add 28 for IP datagram Lengrr */ 

3i userlen += sizeof [struct udpiph$r); 

32 Mi-»ul pr = IPWRCCO UDP; 

33 ul »ui SYC.8 acdr = (struct sockaddr in *) local) ->9in addr.c zdar; 
34 ui -ui ds-.3 aczdr = (istruct sockaddr in *) dest) »sin addr.a3 azcdr: 
25 uwi-zui sport - ({struct socka3dr in ”| local) -+sin_port; 

36 ui-sui_dport = ({struct sockaddr_in *! dest'-»*ir rort; 

37 ui-»ui uler = Li-»ui len; 

38 iE (zerosum == 0) ( 

39 fif 1 /* change tc if 0 for Solaris 2.x, x « & */ 
40 42 ( (us-sui sum - in cksum(iu inti t =) ui, userlen))] -- 2) 
1 ui-»ui sum = Oxtitt; 

42 #elae 

43 ui-»ui sum = ui--ui_len; 

44 #endif 

45 } 

a6 A* Till in rex. of TP healer; */ 

47 /* ip cutpat() calcuates & stores IP header checksum a 

qx ip-sip v = LIEVERS-ON; 

19 ip-»ip hl = &izecf(sezruc- ip, >> 2j 

50 ic-»ip too = 0; 

Sl fit detinec(linux) || detincd( OzenB8D | 

52 ip-2ip len = htons(userlen!; /* networs byce order */ 

£3 #else 

LP ip-»ip len = user en: /^ bost byte order 4/ 

£5 @endift 

56 ip-»ip id = C; /* let IP set this */ 

57 ip-»ip off ~ 0; /* frag otfse-, MF and DF flags */ 
zg ig->»ip ttl = TTL OUT; 

59 Sendtcirawfd, buf, ucerlen, 0, dest, dectlen): 

co > 


udpoksimwdpwrite.c 





图 29-14 udp write žit: 构造 UDP 首 部 和 IP 首 部 ， 往 原始 套 接 字 写 出 IP 数 据 报 
初始 化 分 组 首部 指针 


24-26 ”ip 指 向 IP 首 部 (一 个 ip 结 构 〉 的 开始 位 置 ，ui 指 向 同一 位 
置 ， 不 过 它 的 udpiphdr 结 构 是 卫 首 部 和 UDP 首部 的 组 合 。 


清 零 首部 
27” 显 式 清 零 首部 区 域 ， 以 免 影响 可 能 留 在 缓冲 区 中 的 剩余 数据 的 


校 验 和 计算 。 
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这 段 代 码 的 早先 版 本 显 式 清 零 struct udpiphdr 的 每 个 成 员 ， 然 而 该 
结构 含有 一 些 实现 细节 ， 因 而 不 同系 统 之 间 会 有 差异 。 在 显 式 构 造 首 部 
时 ， 这 是 一 个 典型 的 移植 性 问题 。 


更 新 长 度 


28-31 ui_len 是 UDP 长 度 ， 即 用 户 数 据 字 节 数 加 上 UDP 首 部 长 度 
(8 字 节 ) 。userlen〈 跟 在 UDP 首部 之 后 的 用 户 数据 字 节 数 ) 加 上 
28 〈20 字 节 的 卫 首 部 和 8 字 节 的 UDP 首部 ) 是 整个 IP 数 据 报 的 大 小 。 


填写 UDP 首部 并 计算 UDP 校 验 和 


32~45 ”UDP 校 验 和 计算 不 仅 涵 盖 UDP 首 部 和 UDP 数 据 ， 而 且 涉 及 
来 自卫 首部 的 若干 字段 。 这 些 来 自 IP 首 部 的 额外 字段 构成 所 谓 的 伪 首 部 
(pseudoheader) 。 校 验 和 计算 涵盖 伪 首 部 能 够 提供 如 下 额外 验证 : 如 
果 校 验 和 正确 ， 那 么 数据 报 确实 已 被 递送 到 正确 的 主机 和 正确 的 协议 处 
理 代 码 。 这 些 语句 初始 化 耻 首 部 中 构成 伪 首 部 的 那些 字段 。 它 们 有 些 难 
懂 ， 不 过 TCPv2 的 23.6 节 有 相应 的 解释 。 最 终结 果 是 如 果 zerosum 标 志 
(对 应 -0 命令 行 参数 ) 没有 设置 ， 那 就 在 ui_sum 成 员 中 存 入 UDP 校 验 

和 。 


如 果 计 算出 的 校 验 和 为 0， 那 就 改 为 存 入 6xffff。 在 二 进 制 反 码 算 
术 Cones-complement arithmetic) 中 这 两 个 值 是 同 义 的 ， 不 过 UDP 通 过 
设置 校 验 和 为 0 值 指 示 发 送 者 没有 存放 UDP 校 验 和 。 注 意 ， 我 们 在 图 28- 
14 中 并 没有 检查 计算 出 的 校 验 和 是 否 为 0， 因 为 ICMPvV4 校 验 和 是 必需 
Hj: 其 值 为 0 并 不 指示 没有 校 验 和 。 


我 们 指出 Solaris 2.x (x«6) 就 通过 设置 了 IP_HDRINCL 套 接 字 选项 的 
原始 套 接 字 发 送 的 TCP 分 节 或 UDP 数据 报 而 言 ， 在 校 验 和 字段 上 存在 一 
个 缺陷 。 这 些 校 验 和 由 内 核 计算 ， 不 过 进程 必须 把 ui_sum 成 员 设 置 为 
TCP 或 UDP 的 长 度 。 


填写 IP 首 部 

















46-59 ”既然 已 经 开启 了 IP_HDRINCL 套 接 字 选项 ， 我 们 就 必须 填写 IP 
首部 中 的 大 多 数字 段 。 (28.3 节 讨论 了 如 何 往 设置 了 该 套 接 字 选项 的 原 
始 套 接 字 写 出 这 些 字 段 。) 我 们 把 标识 字段 Cip id) 设置 为 0， 以 告知 
IP 模 块 去 设置 这 个 字段 。IP 模 块 还 计算 IP 首 部 校 验 和 。 最 后 调用 sendto 
写 出 JP 数据 报 。 


注意 ， 对 于 ip_len 成 员 ， 我 们 会 根据 所 用 的 操作 系统 或 按 主 机 字 市 
序 设置 ， 或 按 网 络 字 市 序 设置 。 在 使 用 原始 套 接 字 时 这 通 第 是 个 移植 性 
问题 。 
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下 一 个 函数 是 图 29-15 给 出 udp_read 函 数 ， 它 从 图 29-10 中 调用 。 


udocksam/wpread.c 





7 st-uct udpiphér * 
3 udp read [void) 


9 í 

10 int len; 

11 char *pzr; 

12 struct cther_header *cptr; 

13 for 4 { 

14 rtr = next posp(Ller;; 

LS switch (datalink; | 

lé fase DLI NULL: /* loopback header = 4 bytes */ 
17 re-urn(udp check(rtr4+4, len-4;): 

185 case DLT EN10ME: 

19 sep-r ~ (struct ether header *; ptr; 

20 if /ntchsieptr-sethsr type) !- ETHERTYSE 1?) 

21 arr quir(*Erherrer Type tx not TP", ntchsieptr-s»erher type)!; 
22 re-urn(udp check(ztr«14, len-14j); 

25 ase DT SLIP: /* SLIP header = 24 bylex 4/ 
24 re-urn(udp check(rztr424, len-24)); 

25 case DLT PPP: /* PPP header = 24 bytes */ 
26 rezurmn(udp check(ztr4«24. len-24!): 

2" default: 

26 err_quit (‘unsupported datalink (8d)", datalinki ; 
29 } 

30 } 

31 ) 


ndocksumuUdpreag.c 
图 29-15 udp_read 函 数 : 从 分 组 捕获 设备 读 入 下 一 个 分 组 
14~29 ”调用 我 们 的 next_pcap 函 数 〈 图 29-16〉 从 分 组 捕获 设备 获取 


下 一 个 分 组 。 既 然 数据 链 路 首部 依照 实际 设备 类 型 存在 差异 ， 于 是 我 们 
根据 pcap_datalink 函 数 的 返回 值 作 跳 转 。 





TCPVv2 图 31-9 展 示 了 这 里 出 现 的 4、14 和 24 这 几 个 神秘 的 偏 移 量 。 与 
SLIP 和 PPP 对 应 的 24 字 节 偏 移 量 适 用 于 BSD/OS 2.1. 


尽管 名 字 pLT_EN16MB 中 存在 “10MB” 这 个 限定 词 ， 这 个 数据 链 路 类 
型 也 用 于 100 Mbit/s AK. 


我 们 的 udp_check 函 数 ( 图 29-19) 检查 分 组 并 验证 IP 和 UDP 首 部 中 
的 字段 。 


图 29-16 给 出 next_pcap 函 数 ， 它 返回 来 自分 组 捕获 设备 的 下 一 个 分 














组 。 
udpcksuavpcap.c 
28 char * 
39 naxt pcap(int *len) 
40 : 
4- char *ptr; 
a2 struc- pcap pkthór hdr; 
43 /* keeo locping until pscke-z ready */ 
44 waile | !pt- = (char *! pcap_next (på, &adr)) == NULL! ; 
45 ^len = Ixir.caple:: /* captured length */ 
46 return iptr); 
47 
ndpoksmin/peap.c 


图 29-16 next_pcapÃňižt: 返回 下 一 个 分 组 


43-44 ” 库 函 数 pcap_next 或 者 返回 下 一 个 分 组 ， 或 者 因 发 生 超时 而 
返回 NuLL。 我 们 在 一 个 循环 中 调用 pcap_next， 直 到 返回 一 个 分 组 (或 
者 被 SIGALRM 信 号 中 断 ) 。 该 函数 的 返回 值 是 指 癌 所 返回 分 组 的 一 个 指 
针 ， 由 它 的 第 二 个 参数 指 同 的 pcap_pkthdr 结 构 也 在 返回 时 被 填写 : 


struct pcap_pkthdr { 


struct timeval ts; /* timestamp */ 
bpf u int32 caplen; /* length of portion captured */ 
bpf u int32 len; /* length of this packet (off wire) */ 


}; 


其 中 时 间 惟 是 分 组 捕获 设备 读 入 该 分 组 的 时 间 ， 而 不 是 稍 后 该 分 组 
真正 递送 到 进程 的 时 间 。caplen 是 实际 捕获 的 数据 量 〈 回 顾 一 下 ， 我 们 
在 图 29-6 中 把 变量 snaplen 设 置 为 200， 然 后 在 图 29-9 中 把 它 作 
为 pcap_open_live 函 数 的 第 二 个 参数 ) 。 分 组 捕获 机 制 则 在 捕获 每 个 分 
组 的 各 个 首部 ， 而 不 是 捕获 其 中 的 所 有 数据 。1len 是 该 分 组 在 电线 上 出 


现 的 完整 长 度 。caplen 总 是 小 于 等 于 len。 








45-46 SPAT S I II AS PROBUS TREE BOR aA AS BR 
数 的 返回 值 则 是 指向 所 捕获 分 组 的 指针 。 切 记 ， 函 数 返 回 值 指针 指向 的 
是 数据 链 路 首部 ， 对 于 以 太 网 帧 是 14 字 节 的 以 太 网 首部 ， 对 于 环 回 接口 
则 是 4 字 节 的 伪 链 路 首部 。 


得 看 pcap_next 在 函数 库 中 的 实现 ， 可 看 出 不 同 函 数 之 间 的 分 工 与 
协作 ， 如 图 29-17 所 示 。 我 们 的 应 用 程序 调用 各 个 pcap_ 函 数 ， 其 中 有 些 
与 设备 无 天 ， 有 些 则 依赖 于 分 组 捕获 设备 的 类 型 。 举 例 来 说 ， 图 中 示 出 
BPF 实 现 调用 read，DLPI 实 现 调用 getmsg，Linux 实 现 调 用 recvfrom。 





udp read 


| 应 用 进程 


next pcap 


pcap next 


| 设备 无 天 
! 分 组 捕获 图 数 库 ; 
pcap dispatch libpcap 


read getmsg recvfrcom 
(BPF) (DLPI) (Linux) 


图 29-17 从 分 组 捕获 函数 库 读 入 分 组 的 相关 函数 调用 


图 29-18 给 出 cleanup 函 数 ， 它 由 main 函 数 在 程序 即将 终止 时 调用 ， 
同时 也 是 用 于 中 断 程序 的 那些 键盘 输入 信和 号 的 信号 处 理 函 数 。 


sadn bum loxinuri r 





void 


2 
3 cleanur;in- signo) 
4 

c 


struct. pcarz stat &-at; 


6 putc('Nn', stdcut); 

7 i= (verbose) | 

8 if 'Ecap statsí(pd, &s-at) < 0l 

a err it ("pon etat s: s\n", poa: | gelerr (p? ; 

10 zrintf("kd packsts received by fi-ter\n", stat.ps r6cv); 
11 crinctt ("td packsts arcpzed by kernsl\n", sta-.ps drcp); 
12 } 

li exicio); 

14 ] 


udpeksum/clecnur.c 
图 29-18 | cleanuprK Zi 
808—810 


获取 并 显示 分 组 捕获 统计 数据 


7-12 ”使 用 pcap_stats 获 取 分 组 捕获 统计 信息 : 由 过 滤器 接收 的 分 
组 总 数 以 及 由 内 核 丢 弃 的 分 组 总 数 。 


图 29-19 给 出 udp_check 函 数 ， 它 验证 一 和 UDP 首部 中 的 多 个 字段 。 
我 们 必须 执行 这 些 验 证 工作 ， 因 为 由 分 组 捕获 设备 传递 给 我 们 的 分 组 绕 
过 了 IP 层 。 这 一 点 不 同 于 原始 套 接 字 。 





udoecksum wapread.c 





38 sLruücL wlpiptidr * 
39 udp check(chzrz "ptre, int len! 


40 + 

41 int hlen; 

42 strucz ip "ip 

43 struc- udpipbdr ^ui; 

44 if (len < size»of(struct ip! + sizsoE!struct udphzZr)! 
45 err quit("len - td", ler); 

36 /* minimal verification of IP header */ 

47 iz = (ctruct ip *] ptr: 

as if (ip-~ip_v != IPVERSION) 

49 ezr quit("ip v - $d", ip-»ip v); 

EQ hlen - ip-sip hl << 2; 

51 if {hicn < sizcoE|struct ip); 

a? err quit ("ip hl = $1", ip->ip hl ds 

53 it (len < hlen + sizoot!otruct udphdri ) 

tá etr quit ("lei = Rel, Mern s Rei", Ten, les; 
BS if € (ip-»1p sum - 1^» cksumi (i intis_t +) ip. hler)) != 0) 
56 e=x_quit ("ip checksum errcr"); 

57 if (ip-»ip p == IPPRCTO UDP) { 

Ei ui = (struct udpiphi- *) ip; 

E9 rcturn(ui); 

£0 ] else 

Él err quit("noc a UDP packec*!; 

€2 


nidpcksumiudpreag.c 


图 29-19 udp checkrPAZW: 检验 IP 首 部 和 UDP 首部 


44-61 分 组 长 度 必 须 至 少 包括 IP 和 UDP 首部 。IP 版 本 以 及 IP 首 部 长 
度 和 了 首部 校 验 和 都 必须 验证 。 如 果 协 议 字 段 表 明 这 是 一 个 UDP 数据 
报 ， 那 就 返回 指向 IP/UDP 组 合 首部 的 指针 。 和 否则 终止 程序 运行 ， 因 为 我 
们 在 图 29-9 中 调用 pcap_setfilter 时 指定 的 分 组 捕获 过 滤器 不 应 该 返回 
任何 其 他 类 型 的 分 组 。 


29.7.1 例子 


我 们 首先 使 用 -6 命令 行 选项 运行 本 程序 ， 以 验证 名 字 服 务 右 对 于 不 
市 校 验 和 的 到 达 数 据 报 也 给 出 啊 应 。 我 们 还 同时 指定 -v 命 令 行 选项 。 


macosx # udpcksum -i eni -0 -v bridget.rudoff.com domain 
device = en1 

localnet = 172.24.37.64, netmask = 255.255.255.224 

cmd - udp and src host 206.168.112.96 and src port 53 
datalink - 1 

sent: 36 bytes of data 

UDP checksums on 

recevied UDP checksum = 9d15 











3 packets received by filter 


© packets dropped by kernel 
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我 们 接着 针对 一 个 未 开启 UDP 校 验 和 的 本 地 名 字 服 务 器 (我 们 的 主 
机 freebsd4) 运行 本 程序 。 要 注意 的 是 不 开启 UDP 校 验 和 的 名 字 服 务 器 
是 越 来 越 少 了 。 


macosx # udpcksum -i eni -v freebsd4.unpbook.com domain 
device = ent 

localnet = 172.24.37.64, netmask = 255.255.255.224 

cmd = udp and src host 172.24.37.94 and src port 53 
datalink = 1 

sent: 36 bytes of data 

UDP checksums off 

recevied UDP checksum = 0 





3 packets received by filter 
© packets dropped by kernel 


29.7.2 libnet 447 H PA Ae 


我 们 现在 给 出 open_output 和 send_dns_query 这 两 个 函数 用 libnet 取 
代 原 始 套 接 字 实现 的 版 本 。1ibnet 蔡 我 们 操心 许多 细节 问题 ， 包 括 校 验 
和 以 及 IP 首 部 字 节 序 的 可 移植 性 。 图 29-20 给 出 使 用 1ibnet 的 
open outputrK Zi. 





udpcksum/sendarsquerr-lihnet.c 





7 static libnst t *1; /* libet descriptor */ 


3 void 

9 cpen output (void! 
0 

1 


10 | 

1 char errbaf [(LIBNET_ERRSUP_SIZE] ; 

l2 /* Initialize libnet with an IPv4 raw socket */ 

13 1 = libnet init [LISNET_RAW4, NULL, er-buf!; 

14 if (1 -~ N.LL) í 

15 err quit('Can't initialize libnet; $23*, errbuf!; 
16 ) 

17 ] 


ndpoksunvsendansguery-libnei.c 


图 29-20 open outputrÉZk: 准备 使 用 libnet 





UN ARE 


声明 1ibnet 描 述 ^f 


7 1libnet 使 用 一 个 不 透明 数据 类 型 Clibnet t) 作为 调用 者 和 函数 
库 的 联接 。1libnet_init 函 数 返 回 一 个 libnet_t 指 针 ， 调 用 者 把 它 传递 给 
以 后 的 libnet 函 数 以 指示 所 期 望 的 libnet 运 行 实例 。 从 这 个 意义 上 说 ， 
它 类 似 套 接 字 和 pcap 描 述 符 。 
初始 化 Libnet 

12~16 ”通过 将 第 一 个 参数 指定 为 LIBNET_RAW4 调 用 1ibnet_init 函 数 


请 求 打开 一 个 IPv4 原 始 套 接 字 。 如 果 发 生 错误 ，1libnet_init 将 在 它 的 
aM M 并 返回 空 指针 。 这 种 情况 下 我 们 显示 出 错 
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[29-2125 H1 fii H] libnet HJsend_dns_query KI% . 将 它 与 使 用 原始 套 
接 字 的 send_dns_query (图 29-12) 和 udp_write (图 29-14) 相 比 较 。 


udpokstmsendarsquery-libriel.c 


18 void 

19 send dns query(void) 

20: 

£1 char qbuf [24], “per: 

22 u inti6 t one; 

23 int pa-ket size = LIBNET CD? H + LIBNET_ONSVa_H + 24: 

i4 tatic libnet ptag t ip tag, udo tag, dne tag; 

25 /* wild query perticn of DNS packer */ 

26 ptr = qbuf; 

27 mancspy (ptr, "\COla\Ol4roct-servers\J03net\000", 20); 

28 ptr += 20; 

29 ow z hioous (1! y; 

30 mencpy (ptr, &ore, 2); /* query type = A */ 

4i ptr += 2; 

32 mencpy (ptr, &ore, 2); /* query class = 1 (IP addr! -/ 

33 /* ouild DNS packer */ 

34 dne taq = liknst baild dnov4(1234 /* identification */, 

35 0x2100 /* flags; recursion desired */, 
36 1 /* Ë questions */, 2) /* 4 answer RRs */, 
37 0 /* $ authority RS */, 

28 U /* # additional RRG */, 

29 Sbuf /* query */, 

40 24 /* length of query */, 1. des tag); 
d1 /* muild UDP header */ 

42 udp tag = liknet build udp(![struct socxaddr ir *) -ocall-> 

43 sir port /* source rort */, 

44 q fst ruact soeksddr i 1 5) desl)-> 

as sin port /* dest port */, 

46 packet size /* length */, U /* checksum */, 
47 /* paylosd */, 0 /* payloed length */, 
48 1, udp tag); 

49 /* since we specified the checksur as 0, libnet will automatically */ 
EQ /* calculate the UDP checkcum. ‘Turn it off iz the ucer doesn't want it.*/ 
s1 iE (zerosumi 

82 i* [liznet toggle che-ksum!l, udp tag, LIBNET_OFF) < 6) 

53 err quit ("turning off checksums: ss\r", libmet_geterrer(1)); 
E4 /* Duild IP header */ 

55 ip tag ~ libcet zuild ipv4(packet size + LIBNET IPV4 H /* len */, 

tá Ô /* tos */, 0 /* TP ID */, 0 /* Fragment */, 

£7 TTL -UT /* tcl */, IPERCTO UDP /* protceol */, 

E8 G /* checksum */, 

59 «(struct sockadd- in *! local!-»sin sddr.s addr /* source */, 
£0 (CeLruct soeckedd: in A! desi) -əsin acdr s ewddr /* dest 4/, 

él NULL /* payload */, 0 /* payload lencth */, l, ip tag); 

62 it (libnec write(l) < 0) { 

c3 er qQuit("libnet writes. tain". libnet seterrcrí(1)); 

£4 } 

és if (verbose) 

66 prints ("sent: td bytes of data\n", packet sizel; 

€? 


udpcksumvsendansquery-librei.c 


图 29-21 使 用 libnet 的 send_dns_query 函 数 : 向 DNS 服务 器 发 送 查 询 
构造 DNS 查询 


25-32 ”构造 DNS 分 组 的 查询 问题 部 分 ， 类 似 图 29-12 第 25~30 行 。 

34-40 调用 1libnet_build_dnsv4 函 数 ， 它 接受 调用 者 将 DNS 分 组 的 
每 个 字段 指定 为 独立 的 函数 参数 。 我 们 只 需要 知道 查询 问题 部 分 的 布 
局 ， 如 何 构造 出 DNS 分 组 首部 的 细节 则 不 用 我 们 操心 。 
填写 UDP 首部 并 安排 UDP 校 验 和 计算 

42-48 ”调用 1libnet_build_udp 函 数 构造 UDP 首部 。 它 同样 接受 作为 
独立 的 函数 参数 指定 每 个 字段 。 当 传 入 的 校 验 和 字段 值 为 0 时 ，1ibnet 
将 自动 计算 校 验 和 存 入 该 字段 。 这 些 类 似 图 29-14 第 29~45 行 。 


49-52 “如果 用 户 请 求 不 计算 校 验 和 ， 那 么 我 们 必须 显 式 禁止 校 验 
和 计算 。 


填写 IP 首 部 
53-65 ”调用 1ibnet_build_ipv4 哨 数 构造 IPv4 首 部 以 完成 整个 分 组 


的 构造 。 与 其 他 1ibnet_build 函 数 一 样 ， 我 们 仅仅 提供 字段 内 容 ， 把 它 
们 组 装 成 首部 是 lipnet 之 事 。 这 些 类 似 图 29-14 第 46~58 行 。 





注意 ，libnet 上 自动 留意 ijp_len 字 上 段 是 否 为 网 络 字 节 序 。 这 是 通过 使 
用 1ibnet 令 移植 性 得 以 改善 的 一 个 例子 。 


写 出 UDP 数 据 报 
66-70 调用 1libnet_write 函 数 把 组 装 成 的 数据 报 写 出 到 网 络 。 
注意 ，send_dns_query 函 数 的 libnet 版 本 只 有 67 行 ， 而 原始 套 接 字 


版 本 (send_dns_query 和 udp_write 的 组 合 ) 却 有 96 行 ， 且 含有 至 少 2 个 
移植 性 小 问题 。 








813—814 


29.8 ”小 结 


原始 套 接 字 使 得 我 们 有 能 力 读 写 内 核 不 理解 的 IP 数 据 报 ， 数 据 链 路 
层 访 问 则 把 这 个 能 力 进一步 扩展 成 读 与 写 任 何 类 型 的 数据 链 路 帧 ， 而 不 
仅仅 是 也 数据 报 。tcpdump 也 许 是 直接 访问 数据 链 路 层 的 最 常用 程序 。 


不 同 操作 系统 有 不 同 的 数据 链 路 层 访问 方法 。 我 们 查看 了 源 自 
Berkeley 的 BPF、SVR4 的 DLPI 和 Linux 的 Sock_PACKET。 不 过 如 果 使 用 公 
开 可 得 的 分 组 捕获 函数 库 libpcap， 我 们 就 可 以 忽略 所 有 这 些 区 别 ， 依 
然 编 写 出 可 移植 的 代码 。 


在 不 同系 统 上 编写 原始 数据 报 可 能 各 不 相同 。 公 开 可 得 的 lipnet 隙 
数 库 隐 藏 了 这 些 差 寞 ， 所 提供 的 输出 接口 既 可 以 通过 原始 僚 接 字 访 问 ， 
也 可 以 在 数据 链 路 上 直接 访问 。 














习题 
29.1 图 29-11 中 的 canjump 标 志 的 目的 是 什么 ? 


29.2 ”对 于 我 们 的 udpcksum 程 序 ， 篆 见 的 出 错 应 答 是 ICMP 端 口 不 可 
达 《〈 目 的 地 没有 在 运行 名 字 服 务 器 ) 或 ICMP 主 机 不 可 达 。 这 两 种 情况 
下 ， 我 们 不 必 等 竺 图 29-10 中 的 udp_read 发 生 超 时 ， 因 为 这 样 的 ICMP 错 
修改 这 个 程序 以 捕获 这 些 
ICMP 错 误 。 
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QD 此 处 为 APUE 第 1 版 英文 原版 书 的 页 码 ， 第 2 版 英文 原版 书 为 第 201 页 ， 
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第 30 革 ”客户 /服务 器 程序 设计 范式 


30.1 概述 


择 。 


当 开发 一 个 Unix 服 务 絮 程序 时 ， 我 们 有 如 下 类 型 的 进程 控制 可 供 选 


本 书 第 一 个 服务 器 程序 即 图 1-9 是 一 个 迭代 服务 器 Citerative 

server) 程序 ， 不 过 这 种 类 型 的 适用 情形 极为 有 限 ， 因 为 这 样 的 服 
务 器 在 完成 对 当前 客户 的 服务 之 前 无 法 处 理 已 等 待 服务 的 新 客户 。 
图 5-2 是 本 书 第 一 个 并 发 服务 器 (concurent server) 程序 ， 它 为 每 
个 客户 调用 fork 派 生 一 个 子 进程 。 传 统 上 大 多 数 Unix 服 务 器 程序 属 
于 这 种 类 型 。 

在 6.8 节 ， 我 们 开发 的 另 一 个 版 本 的 TCP 服 务 器 程序 由 使 用 select 处 
理 任意 多 个 客户 的 单个 进程 构成 。 

在 图 26-3 中 我 们 的 并 发 服务 器 程序 被 改 为 服务 器 为 每 个 客户 创建 一 
个 线程 ， 以 取代 派生 一 个 进程 。 


我 们 将 在 本 章 探 究 并 发 服务 需 程 序 设计 的 另 两 类 变 体 。 








预先 派生 子 进 程 Cpreforking) 是 让 服务 器 在 启动 阶段 调用 fork 创 
建 一 个 子 进 程 池 。 每 个 客户 请 求 由 当前 可 用 子 进程 池 中 的 某 个 〈 朵 
EO 子 进程 处 理 。 

预先 创建 线程 〈prethreading) 是 让 服务 器 在 启动 阶段 创建 一 个 线程 
池 ， 每 个 客户 由 当前 可 用 线程 池 中 的 某 个 〈 困 置 ) 线程 处 理 。 
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我 们 将 在 本 章 审 视 预 先 派生 子 进程 和 预先 创建 线程 这 两 种 类 型 的 众 


多 细节 : 如 果 池 中 进程 和 线程 不 够 多 怎么 办 ? 如果 池 中 进程 和 线程 过 多 
怎么 办 ? 父 进程 与 子 进程 之 间 以 及 各 个 线程 之 间 怎 样 彼此 同步 ? 








客户 程序 的 编写 通 种 比 服 务 器 程序 容易 些 ， 因 为 客户 中 进程 控制 要 





少 得 多 。 尽 管 如 此 ， 既 然 我 们 已 在 本 书 中 审查 了 编写 简单 的 回 射 客户 程 
序 的 各 种 方法 ， 我 们 就 在 30.2 节 给 出 总 结 。 


我 们 将 在 本 章 碍 看 9 个 不 同 的 服务 器 程序 设计 范式 ， 并 针对 同一 个 
客户 程序 运行 这 些 服务 器 程序 以 便 互 相 比 较 。 我 们 的 客户 /服务 器 交互 
情形 在 Web 应 用 中 是 典型 的 ， 客 户 同 服务 器 发 送 一 个 小 请 求 ， 服 务 器 啊 
应 以 返回 给 客户 的 数据 。 我 们 已 经 讨论 过 其 中 一 些 服务 器 程序 〈 璧 如 为 
每 个 客户 fork 一 个 子 进程 的 并 发 服务 器 程序 ) ， 不 过 预先 派 生子 进程 类 
型 和 预先 创建 线程 类 型 是 新 引入 的 ， 我 们 将 在 本 章 详 细 讨论 这 些 类 型 的 
服务 器 程序 。 


我 们 将 针对 每 个 服务 器 程序 运行 同一 客户 程序 的 多 个 实例 ， 以 测量 
服务 某 个 固定 数目 的 客户 请 求 所 需 的 CPU 时 间 。 我 们 把 这 些 CPU 测 时 结 
果 汇 总 在 图 30-1 中 并 贯穿 本 章 引 用 本 图 ， 而 不 是 把 它们 直接 分 散在 本 章 
各 处 。 我 们 指出 本 图 中 的 时 间 测 量 的 是 仅仅 用 于 进程 控制 所 需 的 CPU 时 
间 ， 而 和 迭代 服务 右 是 我 们 的 基准 ， 从 其 他 服务 器 的 实际 CPU 时 间 中 减 去 
和 欠 代 服务 器 的 实际 CPU 时 间 束 得 到 相应 服务 器 用 于 进程 控制 所 需 的 CPU 
时 间 ， 因 为 迭代 服务 器 没有 进程 控制 开销 。 我 们 在 本 图 中 包含 0.0 这 个 
基准 时 间 就 是 为 了 强调 这 一 点 。 本 章 中 我 们 使 用 进程 控制 CPU 时 间 
和 
eus 














进程 按 制 CP[I 时 间 CEPR, SARE 22) 


行 号 WE dedu 
J IRRA E, T 
1 打发 服务 器 ， 竹 福 个 客 六 请求 fork 个 进程 
HERETER. 短 个 子 进 程 调用 accepr 














3 MERE THR. Lie ita PP aceapr 

4 fd: PUR. CAR RL AIC accept 

5 MERETHE- HAER PB a k 
5 HS A. AE R Riik 18.7 4.7 0.99 
7 MAER, ATEREA A accept 8.6 3.5 1.53 
3 HAERE, HERA Haccept 14.5 5.9 2.05 


图 30-1 本 章 所 讨论 各 个 范式 服务 器 的 测 时 结果 比较 


所 有 这 些 服务 器 测 时 数据 都 通过 在 与 服务 器 主机 处 于 同一 子 网 的 两 
个 不 同 的 主机 上 运行 图 30-3 给 出 的 客户 程序 获得 。 对 于 每 个 测试 ， 这 两 
个 客户 都 派生 5 个 子 进 程 以 建立 到 服务 器 的 5 个 同时 存在 的 连接 ， 因 此 服 
务 需 在 任意 时 刻 最 多 有 10 个 同时 存在 的 连接 。 每 个 客户 跨 每 个 连接 请 求 
服务 器 返回 4000 字 市 的 数据 。 对 于 涉及 预先 派生 子 进程 或 预先 创建 线程 











ee 
上 线程 。 
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有 些 服务 器 程序 设计 涉及 创建 一 个 子 进程 池 或 一 个 线程 池 。 我 们 需 
要 考虑 的 一 个 问题 是 闲置 子 进程 过 多 或 闲置 线程 过 多 会 有 什么 影响 。 包 
图 30-2 汇 总 了 这 些 分 布 数据 ， 我 们 也 将 在 合适 章节 讨论 其 中 每 一 栏 。 














BUM ZI A Re 
pema | PREETHA, | esas eu. acccpefr | FATES TIER. MORIA 


"UM £1 e 9k fs. 








Ages | xor E95 | scrape cry if (de persi 
Di Inix Solaris | NUnix [aspns | Solaris | ntnix | nspos | Salaris | Dinix 

L 333 335 
1 323 337 
2 333 338 
3 328 311 
4 329 345 
5 322 432 
6 324 355 
7 350 322 
8 341 335 
5 348 337 
358 234 

331 349 

321 317 

326 326 
320 335 

3009 5000 


图 30-2 “15 个 子 进 程 或 线程 中 每 一 个 所 服务 的 客户 数 的 分 布 电 


30.2 TCP fH Xi ux 


我 们 已 经 探究 了 客户 程序 的 各 种 设计 范式 ， 这 里 有 必要 汇总 它们 各 
目的 优 缺点 。 








e 图 5-5 是 基本 的 TCP 客 户 程序 。 该 程序 存在 两 个 问题 。 首 先 ， 进 程 在 
被 阻塞 以 等 待 用户 输 入 期 间 ， 看 不 到 诸如 对 端 关 闭 连接 等 网 络 事 
件 。 其 次 ， 它 以 停 一 等 模式 运作 ， 批 处 理 效率 极 低 。 

图 6-9 是 下 一 个 迭代 客户 程序 ， 它 通过 调用 select 使 得 进程 能 够 在 
等 待 用 户 输 入 期 间 得 到 网 络 事件 通 知 。 然 而 该 程序 存在 不 能 正确 地 
处 理 批量 输入 的 问题 。 图 6-13 通 过 使 用 shutdown 函 数 解决 了 这 个 问 
题 。 


从 图 16-3 开 始 给 出 的 是 使 用 非 阻塞 式 VO 实 现 的 客户 程序 
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。 第 一 个 超越 单 进程 单 线程 设计 范畴 的 客户 程序 是 图 16-10， 它 使 
用 fork 派 生 一 个 子 进程 ， 并 由 父 进程 〈 或 子 进程 ) 处 理 从 客户 到 服 
务 器 的 数据 ， 由 子 进程 〈 或 父 进程 ) 处 理 从 服务 器 到 客户 的 数据 。 

。 图 26-2 使 用 两 个 线程 取代 两 个 进程 。 


我 们 在 16.2 市 末尾 汇总 了 这 些 不 同 版 本 之 间 在 测 时 结果 上 的 差异 。 
在 那里 我 们 指出 ， 非 阻塞 式 MO 版 本 尽管 是 最 快 的 ， 其 代码 却 比 较 复 
AS 使 用 两 个 进程 或 两 个 线程 的 版 本 相 比 之 下 代码 简化 得 多 ， 而 运行 速 
度 只 是 稍 逊 而 已 。 














N 


30.3”TCP 测 试用 客户 程序 
图 30-3 给 出 的 客户 程序 用 于 测试 我 们 的 服务 器 程序 的 各 个 变 体 。 


serven/clieni.c 





1 #include "unp.h* 


2 #desanc MAXN 16384 /* max H bytes to reousst trem server */ 
3 int 

4 main(int argc, char **argw] 

5 | 

6 int i, 5, fd, nchi-^ren, nloope, nbytes; 

zi pida e pid; 

E ecize t n; 

9 char request |MAXLINE], rtply|[MAXN]: 

16 i" (arge != 8) 

11 arr quit("usage: client «hostname or IEaddr> sport <#children> " 
12 "efloops/child» «fbycec/requect»"); 

13 rnchildrer = atci(argv[3]!; 

l4 nloops - aroi'argv [4)]): 

15 nbytes = atoi/|arav[5]): 

16 snprintf (request, sizeof(reques=). "$d\n", nbytes); /* newline st end */ 
17 for (i = 0; i < nchildren; i++) | 

1t if | ipid = Fork[)) == 2) | /* child */ 

19 for (j = 0; j « nlocps, jer! | 

20 fà s Tcp cocnect (argv [1], argv {2];; 

21 Writeifd, requect, ctrien(recuest)) i 

22 if | in = Readn(fd, reply, nbytes!) != nhytes) 

23 err quit("server returned tá bytes", n); 

24 Cleseifd); /* TIME WAIT on client, not server */ 
25 } 

26 printf ("child $3 done\n’, 1); 

27 axit (Ul; 

26 } 

29 /* parenz loops around to farki) again */ 

30 } 

31 while (wait (NULL! > 0) /* now parent waits for all children */ 
32 H 

33 i= (errno != ECHILD) 

44 err sygí"wait error"); 

35 exit (0}; 

36 } 


servericlienit 


图 30-3 ”用 于 测试 各 个 范式 服务 器 的 TCP 客 户 程序 








10-12 ”每 次 运行 本 客户 程序 时 ， 我 们 指定 服务 器 的 主机 名 或 耳 地 
址 、 服 务 器 的 端口 、 由 客户 fork 的 子 进 程 数 〈 以 允许 客户 并 发 地 加 同一 
个 服务 器 发 起 多 个 连接 ) 、 每 个 子 进程 发 送 给 服务 器 的 请 求 数 ， 以 及 每 
个 请 求 要 求 服务 器 返 送 的 数据 字 市 数 。 


17-30 ” 父 进程 调用 fork 派 生 指 定 个 数 的 子 进 程 ， 每 个 子 进程 再 与 
服务 器 建立 指定 数目 的 连接 。 每 次 建立 连接 之 后 ， 子 进程 就 在 该 连接 上 
问 服务 器 发 送 一 行文 本 ， 指 出 需 由 服务 器 返 送 多 少 字 节 的 数据 ， 然 后 在 
该 连接 上 读 入 这 个 数量 的 数据 ， 最 后 关闭 该 连接 。 父 进程 只 是 调用 wait 
等 待 所 有 子 进程 都 终止 。 需 注意 的 是 ， 这 里 关闭 每 个 TCP 连 接 的 是 客户 
端 ， 因 而 TCP 的 TIME_WAIT 状 态 发 生 在 客户 端 而 不 是 服务 器 端 。 这 是 与 通 
常 的 HITP 连 接 的 差别 之 一 。 


我 们 在 本 章 测 试 各 个 版 本 的 服务 喜 程 序 时 ， 用 于 执行 本 客户 程序 的 
ar tn FS: 


% Client 206.62.226.36 8888 5 500 4000 











这 将 建立 2500 个 与 服务 器 的 TCP 连 接 : 5 个 子 进程 各 自发 起 500 次 连 
接 。 在 每 个 连接 上 ， 客 户 同 服务 器 发 送 5 字 节 数 据 (“4060\n”) ， 服 务 
器 同 客 户 返 送 4000 字 节 数 据 。 我 们 在 两 个 不 同 的 主机 上 人 针对 同一 个 服务 
器 执行 本 客户 程序 ， 于 是 总 共 提 供 5000 个 TCP 连 接 ， 而 且 任 意 时 刻 服务 
器 端 最 多 同时 存在 10 个 连接 。 

已 有 较 完 善 的 基准 测试 程序 (benchmark) 用 于 测试 各 种 Web 服 务 
器 性 能 。WebStone 是 其 中 之 一 ， 可 从 http:/www.mindcraft.com/webstone 
获取 。 人 然而 束 为 一 般 性 地 比较 本 章 探 讨 的 各 个 服务 器 程序 设计 范式 ， 我 
们 用 不 上 如 此 深奥 的 测试 程序 。 

我 们 接 下 去 逐一 给 出 9 个 不 同 的 服务 器 程序 设计 范式 。 
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30.4 TCPX4C HR A ANEY 


SAR TCP HR AE 38 ELE E RERNE P ERZES HE FA 
客户 。 这 样 的 服务 器 程序 比较 少见 ， 不 过 我 们 在 图 1-9 展 示 了 一 个 例 
子 ， 一 个 简单 的 时 间 获取 服务 器 程序 。 

我 们 在 本 章 中 比较 各 个 范式 服务 器 程序 时 从 代 服务 器 程序 的 用 途 却 
不 可 磨灭 。 如 果 我 们 针对 迭代 服务 器 如 下 执行 用 于 测试 的 客户 程序 @， 


% client 206.62.226.36 8888 1 5000 4000 





我 们 得 到 同样 数目 的 TCP 连 接 〈5000 个 ) ， 跨 每 个 连接 传送 的 数据 
量 也 相同 。 然 而 由 于 服务 器 是 达 代 的 ， 它 没有 执行 任何 进程 控制 。 这 就 
让 我 们 测量 出 服务 器 处 理 如 此 数目 客户 所 需 CPU 时 间 的 一 个 基准 值 ， 从 
其 他 服务 器 的 实测 CPU 时 间 中 减 去 该 值 就 能 得 到 它们 的 进程 控制 时 间 。 
从 进程 控制 角度 看 迭代 服务 器 是 最 快 的 ， 因 为 它 不 执行 进程 控制 。 有 了 
基准 值 之 后 ， 我 们 在 图 30-1 中 比较 各 个 实测 CPU 时 间 与 基准 值 的 差 值 。 


我 们 不 给 出 本 达 代 服务 器 程序 ， 因 为 它 只 不 过 是 对 下 一 节 给 出 的 并 
发 服务 器 程序 的 少许 修改 而 已 。 











30.5 TCP 并 发 服务 器 程序 ， 每 个 客户 一 
^T ETE 


传统 上 并 发 服务 占 调 用 fork 派 生 一 个 子 进 程 来 处 理 每 个 客户 。 这 使 
得 服务 器 能 够 同时 为 多 个 客户 服务 ， 每 个 进程 一 个 客户 。 客 户 数目 的 唯 
一 限制 是 操作 系统 对 以 其 名 义 运行 服务 需 的 用 户 ID 能 够 同时 拥有 多 少子 
进程 的 限制 。 图 5-12 束 是 一 个 并 肥 服务 器 程序 的 例子 ， 绝 大 多 数 TCP 服 
务 吉 程序 也 按照 这 个 范式 编写 。 


并 发 服务 器 的 问题 在 于 为 每 个 客户 现场 fork 一 个 子 进程 比较 耗费 
CPU 时 间 。 多 年 前 〈20 世 纪 80 年 代 后 期 ) 25 — 1 ECC ESL AS REACH 
处 理 几 百 个 亦 或 几 千 个 客户 时 ， 这 点 CPU 时 间 是 可 以 接受 的 。 然 而 Web 
应 用 的 爆发 式 增长 改变 了 人 们 的 态度 。 繁 忙 的 Web 服 务 器 每 天 测 得 TCP 
连接 数 以 百 万 计 。 这 还 是 就 单个 主机 而 言 ， 更 繁忙 的 站 点 往往 运行 多 个 
主机 来 分 挫 负 和 荷 。 (CTCPv3 的 14.2 节 讨论 使 用 称 为 DNS 轮 询 的 手段 实施 
的 一 个 常用 负载 散布 方法 。) 以 后 若干 节 讲 解 各 种 技术 以 避免 并 发 服务 
器 为 每 个 客户 现场 fork 的 做 法 ， 不 过 传统 意义 上 的 并 发 服务 器 依然 相当 


普遍 。 
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图 30-4 给 出 我 们 的 并 发 服务 器 程序 的 main 函 数 。 


server/servil.c 





1 #inclule "up.h" 


2 int 
main(int argc, char **aàrqv; 


int l:stenfd, connfs; 

pid t childpid, 

void sig _chid(int:, sig_intiin=), web child(int!; 
sockler. L clilen, addrlen; 

struct sockaddr *cliaddr; 


az (arcc -- 2) 

listenfd - Tcp listen(NcLi, argyll], &sddrlen): 
else if (args: sz 3) 

listenfd = Tcb lietéen(argy 1], argv[4], Saddrien}; 
else 

err_quit ("usage: serv)1 [ «host» ] «zortWo"); 
cliaddr » wallcc(addrlen!:; 


Signzl(SIGCHLD, cig chld!; 
Signel(SIGINI, sig_int!; 
for i; 3: } { 

clilen = addrler: 


if | [conn£d = sccect(liecenfd, cliaddr, &clilen;) < C] ‘ 
if 'errno == BINTR) 
cert inue: /* back to far!) */ 
8.209 


err sya!'accept error"): 


} 

if | [chilapid = Fork()) == 6) [ /* child process */ 
clesa(listentd;; /* close listening socket */ 
wek childiconnf3); /* process request */ 
exit. (0i; 

) 

isse |conn£d ; /* paren- closes connected socket */ 


serveiservild.i 





本 函数 类 似 图 5-12， 
垂死 的 子 进程 的 STGcHLD 信 和 号。 不 过 本 函数 通过 调用 tcp_Listen 而 变 得 协 
议 无 关 。 我 们 不 给 出 sig_ch1d 信 号 处 理 函 数 ， 它 与 图 5-11 一 样 ， 不 过 去 
掉 了 printf 调 用 。 


我 们 还 捕获 由 键入 终端 中 断 键 产 生 的 SIGINT 信 号 。 在 客户 运行 完毕 
之 后 我 们 键入 该 键 以 显示 服务 器 程序 运行 所 需 的 CPU 时 间 。 图 30-5 给 出 
See ne 这 是 一 个 信号 处 理 图 数 不 返 回 而 直接 终止 进程 的 


图 30-4 ”TCP 并 发 服务 器 程序 main 函 数 
它 为 每 个 客户 连接 fork 一 个 子 进 程 并 处 理 来 自 
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servei/servil.c 


35 vaid 

46 gig int(int sims) 

3" ! 

38 void pr cpu timetvoidi; 
39 pr cpu time(); 

40 exiti2); 

ai} 


rinse vir 





图 30-5 ”srt6INT 信 号 处 理 函 数 





图 30-6 给 出 由 sI6INT 信 号 人 处理 函 数 调 用 的 pr_cpu_time 函 数 。 





FVEerpr cpu tinie.c 


we liuie "ur p.h" 

2 finclude «-sys/rascurce,h> 

3 #ifndef HAVE GECRUSAGE PROTO 

4 int getrusage (int, struct rusage *); 

5 $endif 

6 void 

7 pr cpu. we (void) 

á d 

9 dcuole user, 8sv8j 

10 struct usege myusage, childusage; 

11 iE (get:zussge [RUSASB SEL?, &myusage) « 2) 

12 err_sys ("getrusage error"); 

13 if (qetrusage (RUSAGE CHILDREN, &ehildusage) < t; 
14 Crr_sys (["qetrusage crror"); 

15 ucer = (double) myusage.ru utime.tv sec i 

16 myussge.ru utime.tv usec/ 1090000.0; 

17 user += (doubles! childusage.rr utime cv sec + 
18 childusage.ru_utime.tv_ussc/  100000L.0; 
19 SYS = idoublc; myusaac.ru stimc.tv Sec | 

20 myussge.ru stime.tv usec/ 1090000.0; 

21 sys += (double) childusage.ru st-re.tv sec + 
22 chíl$usage.ru stime.tv ussc/  100000L.C; 
23 printfi'\nuser tine - $g, sys tina - $9\n', usar, sys); 
24 


sevver/pr ops Sime.c 


图 30-6 pr cpu timePAZX: 显示 总 CPU 时 间 


getrusage 函 数 被 调用 了 两 次 ， 分 别 返 回调 用 进程 CRUSAGE SELF) 
和 它 的 所 有 已 终止 子 进程 CRusAGE_CHILDREN) 的 资源 利用 统计 。 所 显示 
的 值 包括 总 的 用 户 时 间 (耗费 在 执行 用 户 进程 上 的 CPU 时 间 〉 和 总 的 系 
统 时 间 ( 内 核 在 代表 调用 进程 执行 系统 调用 上 耗费 的 CPU 时 | 间 〉。 
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图 30-4 中 的 main 函 数 调用 web_child 函 数 处 理 每 个 客户 请 求 。 图 30-7 
给 出 了 这 个 函数 。 


server/wen chilic 





1 $include "urp.h" 

2 #jefine MAXI 16384 /* max # by-es client can request */ 
3 

4 web child (int sockfd) 

5 

6 iat ntowrite; 

7 ss ze t. nreasd; 

8 char lire [MAXLINE], result [MAXX]; 

a fart £4 xd 

10 if ( (nread = Readline(eockfd, line, MAXL.NE)) == 0) 

1 rcturn; /* cornccticn closed by other end */ 
12 /* linc trom client soceciticc #bytes tc write back */ 
13 ntowrite - atol iline) 

14 if (inrowrite c= 0) T (ntowrite Pac om 

15 err mquit("cClient requss- for td bytes", ntowrite) ; 

16 Writen(sccxfd, result, rtcwricte!; 


2 
18 | 
servev/web child.c 


图 30-7 ”处理 每 个 客户 请 求 的 web_child 函 数 


客户 在 建立 与 服务 器 的 连接 之 后 通过 该 连接 写 出 一 行文 本 ， 指 出 第 
由 服务 器 返 送 多 少 字 节 的 数据 给 客户 。 这 一 点 与 HITP 有 些 类 似 : 客户 
发 送 一 个 小 请 求 ， 服务 器 响应 以 所 期 望 的 信息 (例如 一 个 HTML 文 件 或 
一 幅 GIF 图 像 〉。 在 HTTP 应 用 系统 中 ， 服 务 器 通常 在 发 送 回 所 请 求 的 数 
据 之 后 就 关闭 连接 ， 不 过 较 新 的 版 本 允许 使 用 持续 连接 (persistent 
connection) ， 为 在 某 个 时 限 以 内 到 达 的 额外 客户 请 求 继续 保持 TCP 连 
接 开放 一 段 时 间 。 在 web_child 函 数 中 ， 服 务 器 允许 来 自 客 户 的 额外 请 
求 ， 不 过 我 们 在 图 30-3 中 看 到 用 于 测试 的 客户 每 次 建立 连接 只 发 送 一 个 
请 求 ， 然 后 就 自己 关闭 该 连接 。 


图 30-1 中 行 1 给 出 了 我 们 的 并 发 服务 器 程序 的 测 时 结果 。 相 比 后 续 
各 行 ， 我 们 看 到 传统 意义 的 并 发 服务 器 所 需 CPU 时 间 最 多 ， 与 它 为 每 个 
客户 现场 fork 的 做 法 相 吻 合 。 


我 们 在 本 童 中 没有 测量 的 一 个 服务 器 程序 设计 范式 是 在 13.5 节 讲解 

过 的 由 inetd 激 活 的 服务 器 。 从 进程 控制 角度 看 ， linet vei Hy ALERTS 

个 客户 的 每 个 服务 器 涉及 一 个 fork 和 一 个 exec， 因 而 所 需 CPU 时 间 只 会 
比 图 30-1 中 行 1 所 示 时 间 更 多 。 
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30.6”TCP 预 先 派 生子 进程 服务 器 程 
FF, accept E E MRI 


我 们 的 第 一 个 “增强 ?型 服务 器 程序 使 用 称 为 预先 派生 子 进程 
(preforking) 的 技术 。 使 用 该 技术 的 服务 器 不 像 传统 意义 的 并 发 服务 
器 那样 为 每 个 客户 现场 派生 一 个 子 进程 ， 而 是 在 月 动 阶段 预先 派生 一 定 
数量 的 子 进程 ， 当 各 个 客户 连接 到 达 时 ， 这 些 子 进程 立即 就 能 为 它们 服 
人 

I 情形 。 

















图 30-8 ”服务 器 预先 派生 子 进程 

















这 种 技术 的 优点 在 于 无 须 引入 父 进 程 执 行 fork 的 开销 就 能 处 理 新 到 
的 客户 。 缺 点 则 是 父 进程 必须 在 服务 器 司 动 阶段 猜测 需要 预先 派生 多 少 
了 进程。 如 果 茶 个 时 刻 客户 数 恰好 等 于 子 进 程 总 数 ， 那 么 新 到 的 客户 将 
被 忽略 ， 直 到 至少 有 一 个 子 进程 重新 可 用 。 然 而 回顾 4.5 站 ， 我 们 知道 
这 些 客户 并 未 和 被 完全 忽略 。 内 核 将 为 每 个 新 到 的 客户 完成 三 路 握手 ， 和 直 
到 达到 相应 套 接 字 上 1listen 调 用 的 backlog 数 为 止 ， 然 后 在 服务 器 调 
用 accept 时 把 这 些 已 完成 的 连接 传递 给 它 。 这 么 一 来 客户 惑 能 党 察 到 服 
务 融 在 啊 应 时 间 上 的 恶化 ， 因 为 尽管 它 的 connect 调 用 可 能 立即 返回 ， 
但 是 它 的 第 一 个 请 求 可 能 是 在 一 段 时 间 之 后 才 被 服务 占 人 处理 。 














通过 增加 一 些 代码 ， 服 务 器 总 能 应 对 客户 负载 的 变动 。 父 进程 必须 
做 的 就 是 持续 监视 可 用 《“ 即 闲置 ) 子 进 程 数 ， 一 旦 该 值 降 到 低 于 茶 个 国 
值 就 派生 额外 的 子 进程 。 同 样 ， 一 旦 该 值 超过 男 一 个 闵 值 就 终止 一 些 过 
aa E ER 
能 退化 。 

不 过 在 考虑 这 些 增 强 之 前 ， 我 们 首先 碍 看 这 类 服务 器 程序 的 基本 结 


人 
PRI BBL 
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serverservüz.c 





1 #include "ur.p. lh" 


2 static irt nchildren: 
3 static pid t *pido; 


4 int 

5 main(int argc, char **arav) 

6 | 

9 lt listenfd, i; 

Lj] sccklen t. ederien; 

9 void siz int (inc); 

10 pid t child maxe(int, int, inc); 

1i if {argc == i; 

12 lictentd = Top listcen(NULL, arqv[1], &adarien); 

13 else if iargc «= 4) 

14 listenfd = "cp listení(argv[1], argv[2!, Saddrlen'; 

15 elsa 

16 err quit ("usage: servr2 | chwrxsts ) cort H> «Mchiilidlrens*):; 
17 nchildren - atoi(arqvlargc-1.): 

18 piás = Calloe(nenildren, s&izeot(pid t!); 

19 fcr (1 = 9; a < nchildren; in)! 

20 picsli] = child maàkc(i, lisczentd, adsricn;; /* percnt returns */ 
21 Signal (SIGINT, sig int! ; 

22 fcr (5; ;) 

21 panse C) ; Je everything Jone hy children a/ 


serveisservidz.a 











图 30-9 ”预先 派生 子 进 程 服 务 器 程序 main 函 数 


11-18 增设 一 个 命令 行 参 数 供用 户 指定 预先 派生 的 子 进 程 个 数 。 
分 配 一 个 存放 各 个 子 进程 ID 的 数组 ， 用 于 在 父 进程 即将 终止 时 由 main 函 
数 终 止 所 有 子 进程 。 


19-20 ”调用 图 30-11 给 出 的 child_make 函 数 创建 各 个 子 进程 。 





如 图 30-10 所 示 的 SIGINT 信 





号 处 理 函 数 不 同 于 图 30-5。 


server/servüz.c 





25 void 
26 gig int(int simo) 


; 4 


wait for all children */ 


26 int i: 

29 void pr cpu time(vu-z!; 

30 /* terminate all children */ 
31 for (i - 0; i < nchildren; i+t! 
a2 x-ll(pids[i], SIGTERM!; 

33 while (waic [NMULLI > 0) /* 
34 i 

35 i= {errns != ECHILD) 

36 err osysi"wail erras 

37 p- cpu tim2í]); 

36 exit (0); 

ae ] 


- serverzservil.ir. 





图 30-10 SIGINT 信 和 号 处 理 函 数 


30-34 ”既然 getrusage 汇 报 的 是 已 终止 子 进程 的 党 
Z% 


WH pr_cpu_time 2 All at Aa 
RIESIGTERME 52 
用 统计 。 


图 30-11 给 出 child_makeE 


AER 


Aiken, HM 


资源 利用 统计 ， 在 
止 所 有 子 进程 。 我 们 通过 给 每 个 子 进程 
过 调用 wait 汇 集 所 有 子 进程 的 资源 利 


函数 ， 它 由 main 调 用 以 派生 各 个 子 进程 。 





5E7VePCNRGUE.D 























1 Hinclude "unp.h" 
3 pi 
3 chil is | make (int i, int Listenfd, int sddrilecn) 
a { 
5 pidet pid; 
6 void child main(int, int, int); 
9 io ( (pid = Fork()) > 0) 
8 return (pid); /* persnt */ 
S child main(-, listen?d, acdrlen); /* never returns */ 
10 ] 
servectcitdüz.: 
图 30-11 child makePKR2: 派生 各 个 子 进 程 
ay y `y 口 
7~9 调用 fork 派 生子 进程 后 只 有 父 进程 返回 。 子 进程 调用 网 30-12 


给 出 的 child main Ff 


函数 ， 它 是 个 无 限 循环 。 


—servei'citidüz.c 





11 vaid 


12 child main(int L., int listentd, int addrlen! 

13-4 

14 int cornfd; 

15 void web chi *diint): 

16 sccklen t cli.en; 

17 atraz sockacdr *cliaddr; 

18 cliaddr = Mal loc(addrlent;: 

19 printf i'child $1d starting\n", (Long) getpid(?)); 
a for-t pea Kd 

z1 clilen = addrlen; 

22 voenfd = Accep (listesf?, clialdr, aclilent; 
23 web chiidiconnfd! ; /* process the request */ 
24 Close (coméd|! ; 

2 

2 


Pr Ver citi 





图 30-12 ”child_main 函 数 : 每 个 子 进程 执行 的 无 限 循环 


20-25 ”每 个 子 进程 调用 accept 返 回 一 个 已 连接 套 接 字 ， 然 后 调 
用 web_child (图 30-7〉 处 理 客户 请 求 ， 最 后 关闭 连接 。 子 进程 一 直 在 这 
个 循环 中 反复 ， 直 到 被 父 进程 终止 。 


30.6.1 4.4BSD 上 的 实现 


如 果 你 从 未 见识 过 多 个 进程 在 同一 个 监听 描述 符 上 调用 accept， 你 
可 能 会 想 知道 这 到 底 是 如 何 工作 的 。 我 们 暂且 偏离 一 下 正题 ， 看 看 在 源 
自 Berkeley 的 内 核 中 这 是 如 何 实现 的 〈 也 就 是 ITCPv2 中 给 出 的 分 析 ) 。 


父 进程 在 派生 任何 子 进 程 之 前 创建 监听 套 接 字 ， 而 每 次 调用 fork 
时 ， 所 有 描述 符 也 被 复制 。 图 30-13 展 示 了 proc 结 构 〈 每 个 进程 一 
个 ) 、 监 听 描 述 符 的 单个 file 结 构 以 及 单个 socket 结 构 之 间 的 关系 。 





proc{} 
Sc ppt 


proci] — proc{} 


FUER 











7, Sth TET» 
了 进程 1 


listenfd listenfd |. 


listenfd 





socket{ } 
— 


图 30-13 proc、file 和 socket 这 三 个 结构 之 间 的 关系 


描述 符 只 是 本 进程 引用 file 结 构 的 proc 结 构 中 一 个 数组 中 某 个 元 素 
的 下 标 而 已 。fork 调 用 执行 期 间 为 子 进 程 复制 摘 述 符 的 特性 之 一 是 : 子 
进程 中 一 个 给 定 描述 符 引 用 的 file 结 构 正 是 父 进程 中 同一 个 描述 符 引 用 
的 file 结 构 。 每 个 file 结 构 都 有 一 个 引用 计数 。 当 打开 一 个 文件 或 套 接 
字 时 ， 内 核 将 为 之 构造 一 个 file 结 构 ， 并 由 作为 打开 操作 返回 值 的 描述 
符 引 用 ， 它 的 引用 计数 初 值 自然 为 1; 以 后 每 当 调用 fork 以 派生 子 进程 
或 对 打开 操作 返回 的 描述 符 〈 或 其 复制 品 ) 调用 dup 以 复制 描述 符 时 ， 
该 file 结 构 的 引用 计数 就 递增 (每 次 增 1) 。 在 我 们 的 N 个 子 进程 的 例子 
中 ，file 结 构 的 引用 计数 为 Nf1〈 别 筷 了 父 进程 仍然 保持 该 监听 描述 符 
打开 着 ， 不 过 它 从 不 调用 accept) 。 
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服务 器 进程 在 程序 启动 阶段 派生 N 个 子 进 程 ， 它 们 各 上 自 调用 accept 
并 因而 均 被 内 核 投 入 睡眠 〈TCPv2 第 458 页 140 行 ) 。 当 第 一 个 客户 连接 
到 达 时 ， 所 有 个子 进程 均 被 唤醒 。 这 是 因为 所 有 N 个 子 进程 所 用 的 监 
听 摘 述 符 《〈 它 们 有 相同 的 值 ) 指 回 同一 个 socket 结 构 ， 致 使 它们 在 同一 
个 等 待 通道 (wait channel) 即 这 个 socket 结 构 的 so_timeo 成 员 上 进入 睡 





眠 。 尽 管 所 有 N 个 子 进程 均 被 唤醒 ， 其 中 只 有 最 移 运行 的 子 进 程 获得 那 
个 客户 连接 ， 其 余 N-1 个 子 进 程 继 续 回 复 睡眠 ， 因 为 当 它 们 执行 到 
TCPVv2 第 458 页 135 行 时 ， 将 发 现 队 列 长 度 为 0( 因 为 最 先 运行 的 连接 早 
己 取 走 了 本 就 只 有 一 个 的 连接 ) 。 


这 就 是 有 时 候 称 为 惊 群 Chundering herd) 的 问题 ， 因 为 尽管 只 有 
一 个 子 进程 将 获得 连接 ， 所 有 MN 个 子 进 程 却 都 被 唤醒 了 。 尽 管 如 此 这 上段 
代码 依然 起 作用 ， 只 是 每 当 仅 有 一 个 连接 准备 好 被 接受 时 却 唤 醒 太 多 进 
程 的 做 法 会 导致 性 能 受 损 。 我 们 接着 测量 这 个 性 能 影响 。 


30.6.2 ithe ES 


图 30-1 行 2 中 BSD/OS 服 务 器 值 为 1.8 的 CPU 时 间 其 测试 条 件 是 : 预先 
派生 15 个 子 进程 并 且 同 时 存在 最 多 10 个 客户 。 为 了 测量 惊 群 问题 的 影 
响 ， 我 们 保持 同时 存在 的 最 大 客户 数 不 变 (10) ， 单 纯 增 长 预先 派生 的 
FETE. © 因为 单个 测试 结果 没有 什么 意义 ， 所 以 我 们 并 没有 给 出 
子 进程 个 数 增长 的 结果 。 超 过 10 个 子 进程 就 会 太 多 ， 惊 群 问题 会 更 严 
重 ， 计 时 也 会 增加 。 


某 些 Unix 内 核 有 一 个 往往 命名 为 wakeup_one 的 函数 ， 它 只 是 唤醒 等 
符 某 个 事件 的 多 个 进程 中 的 一 个 ， 而 不 是 唤醒 所 有 等 竺 该 事件 的 进程 
[Schimmel 1994] 。BSD/OS 内 核 没 有 这 样 的 函数 。 


30.6.3 ”连接 在 子 进程 中 的 分 布 


我 们 接着 查看 全 体 客户 连接 在 阻塞 于 accept 调 用 中 的 可 用 子 进程 池 
上 的 分 布 。 为 了 采集 这 些 信息 ， 我 们 把 main 函 数 改 为 在 共享 内 存 区 中 分 
配 一 个 长 整数 计数 器 数组 ， 每 个 子 进程 一 个 计数 器 。 所 增加 代码 如 下 ， 
其 中 meter 函 数 在 图 30-14 中 给 出 。 




















serveimeter.c 





b 


#include "unp.h" 
#include <sys/mman. n> 


we 


3 /* 

4 * Allocate an array of "'ren-ldren" lorge in shared memory that can 

5 + be used aa a counter by cach child of how many clients it services. 
6 


5 A See po 457-4670 of "advanced Programing in the Onix Ervironme ." 
oy 
s long w 
9 meter(int nen:ldren) 
10 : 
11 ia fd; 
iz leng aptr; 


13 ifdef MAP ANON 


l4 ptr = Mmap(0, nenildren *  sizsof/long)!, PRIT READ | ERC! WRITE, 
15 MAP ANON | MAP SHARED, -1, Ól} 

16 $=lae 

17 fd = Cpen("/dev/zero", O RIMR, 0}; 

18 ptr = Mmapio, nenildren *  sizsof/lomy, PROT REA^ | EROT WRITE, 
19 MAP SHARED, td, €]; 

20 Close (£d)}; 

21 #endift 

22 returniptr): 

23 : 


serveiimiefer a 








图 30-14 在 共享 内 存 区 中 分 配 一 个 数组 的 meter 函 数 


long *cptr, *meter(int); /* for counting #clients/child */ 


cptr - meter(nchildren); /* before spawning children */ 


在 分 配 共享 内 存 区 时 ， 如 采 系 统 文 持 〈 如 4.4BSD) , GNU EA E 
名 内 存 映 射 Canonymous memory mapping) ， 耕 则 使 用 /dev/zero 映 射 
(如 SVR4) 。 既 然 该 数组 是 本 进程 在 尚未 派生 各 个 子 进程 之 前 调 
用 mmap 创 建 的 ， 它 将 由 本 进程 ( 父 进 程 》 和 后 来 fork 的 所 有 子 进程 所 共 


To 


SR aR FEchild_mainesiat (8130-12) 改 为 让 每 个 子 进 程 在 accept 
返回 之 后 递增 各 自 的 计数 器 ， 把 SIGINT 信 和 号 处 理 函 数 改 为 在 所 有 子 进 程 
终止 之 后 显示 这 个 计数 器 数组 。 


图 30-2 给 出 这 个 分 布 。 当 可 用 子 进程 阻塞 在 accept 调 用 上 时 ， 内 核 
调度 算法 把 各 个 连接 均匀 地 散布 到 各 个 子 进 程 。 


30.6.4 select} R 











在 观察 4.4BSD 主 机 上 的 本 例子 时 ， 我 们 还 可 以 探究 男 一 个 难以 理解 
却 又 罕见 的 现象 。TCPv2 的 16.13 节 提 到 过 select 函 数 的 冲突 
(collision) 现象 以 及 内 核 如 何 处 理 这 个 小 概率 问题 。 当 多 个 进程 在 引 
用 同一 个 套 接 字 的 描述 符 上 调用 select 时 就 会 发 生 冲 突 ， 因 为 在 socket 
结构 中 为 存放 本 套 接 字 就 绪 之 时 应 该 唤醒 哪些 进程 而 分 配 的 仅仅 是 一 个 
进程 ID 的 空间 。 如 果 有 多 个 进程 在 等 符 同 一 个 套 接 字 ， 那 么 内 核 必 须 唤 
醒 的 是 阻塞 在 select 调 用 中 的 所 有 进程 ， 因 为 它 不 知道 哪些 进程 受 刚 变 
得 束 绪 的 这 个 套 接 字 影 啊 。 


我 们 可 以 迫使 本 服务 器 程序 发 生 select 冲 突 ， 办 法 是 在 图 30-12 中 
调用 accept 之 前 加 上 一 个 select 调 用 ， 等 待 监听 套 接 字 变 为 可 读 。 各 个 
子 进 程 将 阻塞 在 select 调 用 而 不 是 accept 调 用 之 中 。 图 30-15 给 出 了 
child_main 国 数 的 改动 部 分 ， 不 同 于 图 30-12 的 若干 行 通过 标 以 加 号 指 
He 
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printf("child t&ld starcing\n", {2one) gstpió/)): 
' FD ZER2[(&5rcetj; 
for [ 
FD_SET(listentd, &reect); 
Select (lietentd+1, &reet, MULL, NULL, NULL); 
if(FD ISSET!lictenzc, &reet) == 0) 
crr_suit("Llistcntd readable"); 


^L + = 


clilen = addrlen: 
connfd = Acceptilistenfa, cliaddr, aclilen): 
web chile!connzd;; /* process the requ23- */ 


Close!connzd!; 


) 














图 30-15 ”把 图 30-12 变 为 阻塞 在 select 而 不 是 accept 中 的 改动 部 分 


如 此 修改 之 后 ， 通 过 检查 BSD/OS 内 核 的 nselcoll 计 数 器 在 服务 器 
运行 前 后 的 变化 ， 我 们 发 现 某 次 运行 本 服务 器 出 现 1814 个 冲突 ， 下 一 次 
运行 出 现 2045 个 冲突 。 既 然 两 个 客户 为 每 次 运行 本 服务 器 总 共产 生 5000 
个 连接 ， 这 两 个 结果 相当 于 约 有 35%~40% 的 select 调 用 引起 冲突 。 


如 果 比 较 本 例子 的 BSD/OS 服 务 嚣 CPU 时 间 ， 加 上 select 调 用 之 后 
其 值 由 图 30-1 中 的 1.8 增 长 到 2.9。 这 个 增长 的 原因 一 部 分 可 能 是 新 加 了 
一 个 系统 调用 (由 只 是 调用 accept 改 为 调用 select 和 accept) ， 男 一 部 


4 


分 可 能 是 内 核 为 处 理 select 冲 突 而 引入 额外 开销 。 











从 以 上 讨论 我 们 可 以 得 出 如 下 经 验 : 如 果 有 多 个 进程 阻塞 在 引用 同 
一 个 实体 〈 例 如 套 接 字 或 普通 文件 ， 由 file 绪 构 直 接 或 间接 描述 ) Hyd 
人 那么 最 好 直接 阻塞 在 诸如 accept 之 类 的 函数 而 不 是 select 之 








30.7 ”TCP 预先 派生 子 进程 服务 器 程 
序 ，accept 使 用 文件 上 锁 保 护 


我 们 刚才 讲述 的 4.4BSD 实 现 允 许多 个 进程 在 引用 同一 个 监听 套 接 字 
的 描述 符 上 调用 accept， 然 而 这 种 做 法 也 仅仅 适用 于 在 内 核 中 实现 
accept 的 源 自 Berkeley 的 内 核 。 相 反 ， 作 为 一 个 库 函 数 实现 accept 的 
System V 内 核 可 能 不 允许 这 么 做 。 事 实 上 如 果 我 们 在 基于 SVR4 的 Solaris 
2.5 内 核 上 运行 上 一 节 的 服务 器 程序 ， 那 么 客户 开始 连接 到 该 服务 器 后 
不 入 ， 某 个 子 进程 的 accept 束 会 返回 EPROTO 错 误 (表示 协议 有 错 )〉。 


造成 本 问题 的 原因 在 于 SVR4 的 流 实现 机 制 (第 31 章 〉 和 库 函 数 版 
本 的 accept 并 非 一 个 原子 操作 这 一 事实 。Solaris 2.6 修 复 了 这 个 问题 ， 不 
过 大 多 数 其 他 SVR4 实 现 仍 然 存在 这 个 问题 。 


解决 办 法 是 让 应 用 进程 在 调用 accept 前 后 安置 某 种 形式 的 锁 
Clock) ， 这 样 任意 时 刻 只 有 一 个 子 进 程 阻 塞 在 accept 调 用 中 ， 其 他 子 
进程 则 阻塞 在 试图 获取 用 于 保护 accept 的 锁 上 。 


832 
正如 本 系列 丛书 第 二 卷 所 述 ， 我 们 有 多 种 方法 可 用 于 提供 包 经 
d m 的 上 锁 功 能 。 本 节 我 们 使 用 以 fcnt1i 孙 数 呈 现 的 POSIX 文 件 上 
锁 功 能 。 


maini žit (8130-9) 的 唯一 改动 是 在 派生 子 进 程 的 循环 之 前 增加 一 
个 对 我 们 的 my_lock_init 函 数 的 调用 。 





十 my lock init("/tmp/lock.XXXXXX"); /* one lock file for all children */ 
for (i = 0; i < nchildren; i++ 
pids[i] = child_make(i, listenfd, addrlen); /* parent returns */ 


child make 函数 仍然 是 图 30-11。child_ main 函数 〈 图 30-12) 的 唯 
一 改动 是 在 调用 accept 之 前 获取 文件 锁 ， 在 accept 返 回 之 后 释放 文件 
Fil o 


for (; ; ) & 


clilen - addrlen; 
十 my lock wait(); 


connfd - Accept(listenfd, cliaddr, &clilen); 
十 my lock release(); 
web, child(connfd); /* process request */ 


Close(connfd); 


图 30-16 给 出 了 使 用 POSIX 文 件 上 锁 功 能 的 my_lock_init 函 数 。 





server(lack_feati.c 





1 #ineluse "urp.h" 

2 static struct flock lock :c, unlock it; 

3 static int lcck fd = -1; 

4 /* fcncl() will fail if my lock init() not called */ 
5 void 

6 my lcck init(cbàr “pathnamc) 


£ char lork_file[1024}); 


/* meet copy caller'e string, in cass it's a conetart */ 
10 strncpy[lock file, pathname, sizeof(lock fiis!|!; 
1 lock ZG = Mkstenp!lock file); 


12 Unlink (lock file!; /* but lock fd remains open */ 
13 lcecxk it.1 type = F WALCK; 

14 leck it.l whence = SzEK SET; 

15 lock it.1 start. s N; 

16 leek_it.1 len = 3; 

17 uniock it.l type = F_UNLCK; 

18 unlock it.l whence = SEEX_SET; 

19 ulock it 1 start 2.5; 


29 unlock it.1 len - Di 


sevver/lock. fenti.c 
图 30-16 “使 用 POSIX 文 件 上 锁 功 能 的 my_lock_init 函 数 
833 


9~12 ”调用 者 将 一 个 路 径 名 模板 指定 为 ny_lock_init 的 函数 参 
数 ，mktemp 隙 数 根据 该 模板 创建 一 个 唯一 的 路 径 名 。 本 消 数 随后 创建 一 
个 具备 该 路 径 名 的 文件 并 立即 unlink 掉 。 通 过 从 文件 系统 目录 中 删除 该 
路 径 名 ， 以 后 即使 程序 崩 尝 ， 这 个 临时 文件 也 完全 消失 。 然 而 只 要 有 一 
个 或 多 个 进程 打开 着 这 个 文件 (也 就 是 说 它 的 引用 计数 大 于 0) ， 该 文 
件 本 身 就 不 会 被 删除 。 (这 也 是 从 某 个 目录 中 删除 一 个 路 径 名 与 关闭 一 
个 打开 着 的 文件 的 本 质 差 别 。) 


13-20 ”初始 化 两 个 flock 结 构 ， 一 个 用 于 上 锁 文件 ， 一 个 用 于 解锁 











文件 。 文 件 上 锁 范 围 起 自 字 节 偏 移 量 0 (1_whence 值 

为 SEEK_SET，1_start 值 为 0) ， 跟 越 整 个 文件 (1_len 值 为 0， 表 示 锁 住 
整个 文件 或 到 文件 尾 ) 。 我 们 并 不 往 该 文件 中 写 任 何 东 西 〈 其 长 度 总 为 
0) ， 不 过 这 是 可 行 的 ， 内 核 照常 正确 地 处 理 这 个 劝告 性 锁 (advisory 
lock) . 


作者 (Stevens 先 生 〉 在 声明 这 两 个 结构 时 一 开始 使 用 如 下 语句 初始 
Wen: 


static struct flock lock it = { F WRLCK, 0, 0, 0, © }; 
static struct flock unlock it = { F UNLCK, 0, 0, 0, 0 3; 





然而 这 么 做 存在 两 个 问题 。 首 先 ， 常 值 SEEK_SET 为 0 并 无 保证 。 更 
重要 的 是 ，POSIX 不 保证 flock 结 构 中 各 成 员 的 顺序 。 在 Solaris 和 Digital 
Unix 上 1_type 是 第 一 个 成 员 ， 在 BSD/OS 上 它 却 不 是 。POSIX 只 是 保证 
该 结构 中 存在 POSIX 必 需 的 成 员 ， 却 不 保证 它们 的 前 后 顺序 ， 更 何况 它 
还 允许 该 结构 中 出 现 非 POSIX 的 额外 成 员 。 因 此 除非 把 它 初始 化 为 全 
0， 和 否则 总 应 该 以 真正 的 C 代 码 初 始 化 一 个 结构 ， 而 不 应 该 在 分 配 该 结构 
时 以 初始 化 算 子 (initilizer〉 初始 化 它 。 


这 个 规则 的 例外 是 结构 初始 化 算 子 由 实现 具体 提供 的 情形 。 举 例 来 
说 ， 我 们 在 第 26 章 中 初始 化 Pthread 互 斥 锁 时 所 写 代 码 为 ; 


pthread mutex t mlock - PTHREAD MUTEX INITIALIZER; 





其 中 pthread_mutex_t 数 据 类 型 通常 是 一 站 结构 ， 然 而 该 初始 化 算 子 
是 由 实现 提供 的 ， 来 自 不 同 实现 的 该 算 子 可 以 不 一 样 。 


图 30-17 给 出 了 用 于 上 锁 和 解锁 文件 的 两 个 函数 。 它 们 仪 仅 使 用 我 
们 在 图 30-16 中 初始 化 过 的 结构 调用 fcnt1。 





server/Tock fenti.c 
22 void 

23 my lock wait() 

24 1| 


25 int rc; 

26 while ( (re = fenel(loek_fd, s SETLKW, “lock _it)) < 0) ( 
27 it (errno -= BINTR) 

26 continue; 

29 ewe 

30 err sysí("fcrtl error for my lock wait"); 

31 } 

32 ] 


33 void 

34 my lcck release!! 

35 1 

36 if (fentlilock_fd, F SETLXW, unlock it) < 0) 
err sysí"fontl error for my lock release"); 


server/lock. fenti.c 





图 30-17 fi Hlfentilf']my lock waitfllmy lock redeaserf Zi 


现在 这 个 新 版 本 的 预先 派生 子 进 程 服务 器 程序 在 SVR4 系 统 上 照样 
可 以 工作 ， 因 为 它 保 证 每 次 只 有 一 个 子 进程 阻塞 在 accept 调 用 中 。 对 比 
图 30-1 中 Digital Unix 和 BSD/OS 服 务 器 的 行 2 和 行 3， 我 们 看 到 这 种 围 经 
accept 的 上 锁 增 加 了 服务 器 的 进程 控制 CPU 时 间 。 


Apache _ Web 服务 器 程序 版 本 1.1 (http://www.apache.org) 在 预先 派 
生子 进程 之 后 ， 如 果实 现 允 许 所 有 子 进程 都 阻塞 在 accept 调 用 中 ， 那 就 
ee 否则 就 使 用 本 节 介 绍 的 包 绕 accept 的 文件 上 锁 


30.7.1 ERE E S 


我 们 可 以 查看 本 版 本 的 预先 派生 子 进程 服务 器 程序 是 否 照常 存在 上 
一 节 中 讲解 的 惊 群 现 象 。 图 30 给 出 了 增加 非 必 要 子 进 程 数 的 结果 。 在 使 
用 文件 上 锁 保 护 accept 的 Solaris 一 栏 中 ， 我 们 只 能 测 得 子 进程 数 在 75 以 
A (E75) 的 结果 ， 因 为 测量 下 一 个 步 跳 (900 引起 CPU 时 间 剧 增 。 一 
个 可 能 的 原因 是 系统 因 进 程 过 多 而 耗 尽 内 存 ， 导 致 开 始 对 换 。 


30.7.2 ”连接 在 子 进程 中 的 分 布 


我 们 可 以 使 用 图 30-14 给 出 的 函数 查看 全 体 客 户 连接 在 可 用 子 进程 
池上 的 分 布 。 图 30-2 给 出 了 结果 。 所 有 3 个 操作 系统 都 均匀 地 把 文件 锁 











散布 到 等 得 进程 中 。 


30.8 ”TCP 预先 派生 子 进程 服务 器 程 
FF, accept 使 用 线程 上 锁 保 护 


我 们 提 过 有 多 种 方法 可 用 于 实现 进程 之 间 的 上 锁 。 上 一 节 使 用 的 
POSIX 文 件 上 锁 方 法 可 移植 到 所 有 POSIX 兼 容 系 统 ， 不 过 它 涉及 文件 系 
统 操 作 ， 可 能 比较 耗 时 。 本 节 我 们 改 用 线程 上 锁 保护 accept， 因 为 这 种 
eee 而 且 适 用 于 不 同 进 程 之 
间 的 上 锁 。 





为 了 使 用 线程 上 锁 ， 我 们 的 main、child_make 和 child_main 函 数 都 
保持 不 变 ， 唯 一 需要 改动 的 是 那 3 个 上 锁 函 数 。 在 不 同 进程 之 间 使 用 线 
程 上 锁 要 求 : G) 互 斥 锁 变 量 必须 存放 在 由 所 有 进程 共享 的 内 存 区 
中 ; (2) 必须 告知 线程 函数 库 这 是 在 不 同 进程 之 间 共 享 的 互 斥 锁 。 

















这 同样 要 求 线程 库 支 持 PTHREAD_RPOCESS_SHARED 属 性 。 包 


834~ 835 





正如 本 系列 丛书 第 二 卷 所 述 ， 我 们 有 多 种 方法 可 用 于 在 不 同 进程 之 
间 共 享 内 存 空间 。 在 本 节 的 例子 中 我 们 使 用 mmap 函 数 以 及 /dev/zero 设 
备 ， 它 在 Solaris 和 其 他 SVR4 内 核 上 均 可 运行 。 图 30-18 给 出 了 新 版 本 的 
my lock init eA ZW. 








L5 
serviecienck breui! c 





1 #inelude "urprhread.n" 

2 #inelude <cyo/rman, a» 

3 static pthread mutex t  *mpt-; /* actual mutex will be in shared memory */ 
4 void 


5 my -ocx init (char *pathnare) 

€ { 

7 int fd; 

& pthread mutexattr t mattr; 

5 td = Cpen("/cev/zero", O_RDWR, Ui; 
10 


metr = Mmap(C, sizeof pthread mutex 七 | PROT READ | zZRCT WRITE 


1 MAP sHbR*D, fA, 0): 

12 Close (fd); 

13 Pthread_mutexattr_init (&mettr); 

14 Pthread mutexattr se-psharedí(&mattr, ?THREAD PROCESS SHARED) ; 
15 Pchread matex init(metr, &mattr): 

16 : 


serverlock pibread.c 


图 30-18 ”在 进程 之 间 使 用 pthread 上 锁 的 my_lock_init 函 数 


9-12 ”打开 /dev/zero 然 后 调用 mmap。 所 映射 的 字 节 数 是 一 
个 pthread_mutex_t 类 型 变量 的 大 小 。 随 着 关闭 描述 符 ， 这 么 做 是 可 行 
的 ， 因 为 该 描述 符 已 被 内 存 映 射 了 。 


13-15 “在 先前 的 Pthread 互 斥 锁 例 子 中 ， 我 们 使 用 党 
值 PTHREAD_MUTEX_INITIALIZER 初 始 化 全 局 或 静态 互 斥 锁 变 量 〈 例 如 图 
26-18) 。 然 而 对 于 一 个 存放 在 共享 内 存 区 中 的 互 斥 锁 ， 我 们 必须 调用 
一 些 Pthread 库 函数 以 告知 该 函数 库 : 这 是 一 个 位 于 共享 内 存 区 中 的 互 斥 
锁 ， 将 用 于 不 同 进 程 之 间 的 上 锁 。 我 们 首先 为 一 个 互 斥 锁 以 默认 属性 初 
始 化 一 1 pthread_mutexattr_t 结 构 ， 然后 赋予 该 结构 
PTHREAD_PROCESS_SHARED 属 性 〈 该 属性 的 默认 值 
为 PTHREAD_PROCESS_PRIVATE， 即 只 人 允许 在 单个 进程 内 使 用 ) 。 最 后 调 
用 pthread_mutex_init 函 数 以 这 些 属性 初始 化 共享 内 存 区 中 的 互 斥 锁 。 


图 30-19 给 出 了 新 版 本 的 my_lock_wait 和 my_lock_release 国 数 。 
AS p BUM Ml FS — 7 Pthread K LZAt UJ, E yt eV feet AOR it. 











serverflock_pthread.c 





17 void 

1& my lock wait () 

19 | 

26 Pthread wutex lock (mptr) : 
21 ] 


z void 
3 my lcck release!! 


Pthread mutex unlock (mptr) ; 


E) 
server/lock pihread.c 


图 30-19 ”使 用 Pthread 上 锁 的 my_lock_wait 和 my_lock_release 


比较 图 30-1 中 Solaris 服 务 器 的 行 3 和 行 4， 我 们 看 到 线程 互 斥 锁 上 锁 
快 于 文件 上 锁 。 


30.9 ”TCP 预先 派生 子 进程 服务 器 程序 ， 
传递 摘 述 符 


对 预先 派生 子 进 程 服 务 器 程序 的 最 后 一 个 修改 版 本 是 只 让 父 进程 调 
用 accept， 人 然后 把 所 接受 的 已 连接 套 接 字 “ 传 递 ” 给 茶 个 子 进程 。 这 么 做 
统 过 了 为 所 有 子 进程 的 accept 调 用 提供 上 锁 保 护 的 可 能 需求 ， 不 过 需要 
从 父 进程 到 子 进程 的 茶 种 形式 的 描述 符 传 递 。 这 种 技术 会 使 代码 多 少 有 
点 复杂 ， 因 为 父 进程 必须 跟踪 子 进程 的 忙 采 状态 ， 以 便 给 空闲 子 进程 伟 
递 新 的 套 接 字 。 


在 以 前 的 预先 派生 子 进程 的 例子 中 ， 父 进程 无 需 关 心 由 哪个 子 进程 
接收 一 个 客户 连接 。 操 作 系 统 处 理 这 个 细节 ， 给 予 和 个 子 进程 以 首先 调 
用 accept 的 机 会 ， 或 者 给 予 东 个 子 进程 以 所 需 的 文件 锁 或 互 斥 锁 。 图 
和 

Fo 


然而 对 于 当前 的 预先 派生 子 进 程 例子 ， 我 们 必须 为 每 个 子 进 程 维 护 
Wu e a a a 
child 结 构 。 





1 typedef struc ( 
pid 


t child pid; /* process ID */ 
3 int child pipefs; /* parent's scream pips to/from child */ 
4 int. child status: /* € = ready */ 
5 long child count; fs H commactions handled */ 
6 上 Child: 
7 Child ctr; /^ array cf Child structures; calloc'ed +/ 


图 30-20 chiildZifj 


我 们 在 该 结构 中 存放 相应 子 进 程 的 进程 ID、 父 进程 中 连接 到 该 子 进 
程 的 字 市 流 管道 摘 述 符 、 子 进程 状态 以 及 该 子 进程 已 处 理 客户 的 计数 。 
我 们 的 STGINT 信 号 处 理 函 数 将 在 终止 程序 前 显示 各 个 子 进程 的 这 个 计数 
atl, VARESE EA PORTE SP PEAS IAT AY AB 


我 们 首先 查看 图 30-21 给 出 的 child_make 函 数 。 在 调用 fork 之 前 先 创 
吝 一 个 字 节 流 管道 ， 它 是 一 对 Unix 域 字 节 流 套 接 字 (第 15 章 ) 。 派 生出 








子 进 程 之 后 ， 父 进程 关闭 其 中 一 个 描述 符 〈sockfd[1]) ， 子 进程 关闭 
另 一 个 描述 符 Csockfd[o]) 。 子 进程 还 把 流 管道 的 自身 拥有 端 
(sockfd[1] ) 复制 到 标准 错误 输出 ， 这 样 每 个 子 进程 就 通过 读 写 标准 
错误 输出 和 父 进程 通信 。 父 子 进 程 之 间 的 关系 如 图 30-22 所 示 。 








836—837 
servec'cintdüs.c 

1 #include "urp.h" 
2 #include "child.h" 
3 pid t 
4 chile make(int i, int listenfd, int adcrler; 
51 
6 int sockfd [2] ; 
7 pidt pis 
8 vcid child main(int, irt, imc); 
9 &cckezpair|AF LOCAL, £OCX ETRBAM, 0, cocktd); 
10 if ( (pid = Fork() > 20) | 
il Close(sockEd[1]):; 
12 cptrli].zhild pid - pid; 
13 eptrfi] child pipetd = so-kfd[0]; 
14 eptr{i) .chiid_octatus » C; 
15 return (pid) ; /* parent */ 
16 } 
17 Dup2!sockfd[1!, ST7CESR PILENO): /* child's strsam pipe ta parvent */ 
18 Close (sockfd[0];; 
19 Close (sockfd[i]!; 
20 Close (11s-enfd): /* chilà dogs not need this cpsn */ 
21 cn-ld mainli, listenEd, addricn) ; /* never returns */ 


servereid 








图 30-21 ”描述 符 传递 式 预 先 派生 子 进 程 服务 器 程序 的 child_make 函 数 














子 进程 LIEFE 














图 30-22 ”父子 进程 各 自 关 闭 一 端 后 的 字 节 流 管道 


所 有 子 进程 均 派 生 之 后 的 进程 关系 如 图 30-23 所 示 。 我 们 关闭 每 个 
子 进 程 中 的 监听 套 接 字 ， 因 为 只 有 父 进程 才 调用 accept。 父 进程 必须 处 
理 监 听 套 接 字 以 及 所 有 字 节 流 套 接 字 。 正 如 你 可 能 猜想 的 那样 ， 父 进程 


























使 用 select 多 路 选择 它 的 所 有 描述 符 。 

















图 30-23 ”所 有 子 进 程 都 派生 之 后 的 各 个 字 节 流 管 道 


图 30-24 给 出 main 函 数 。 相 比 本 函数 以 前 各 个 版 本 的 变动 在 于 : 分 
配 描述 符 集 ， 打 开 与 监听 套 接 字 以 及 到 各 个 子 进 程 的 字 节 流 管 道 对 应 的 
位 ， 计算 最 大 描述 符 值 ， 分 配 child 结 构 数 组 的 内 存 空 间 ， 主 循环 由 一 
个 select 调 用 驱动 。 











server (ser vil. c 
1 include "inp.h* 
2 dinclude "hild. bh" 


3 static int nchildren: 


4 inc 

5 | aun arac, chsr **arqv) 

6 

7 int zistenfd, i, nsv&il, wax£d. nsel, connfd, rc: 

8 void sig int'int]; 

9 pid t chil make(:rt, int, int!; 

10 ssize t n; 

1L fa sez reet, mastereet; 

12 socklen t addrlen, clilen; 

13 struc. sockedir ^clieddr; 

14 1? (argc mm 3) 

15 listerfa - Tcp listen(NULL, axgv([1], uaddrlan) ; 

ib else if (argc == 4) 

37 listerfa = Tcp lieten(arqv[1,;, arqy.3], &addrler;; 

18 else 

19 err_quit ("usage: serv05 [ «Lost» ] <port#> <#childrens"); 
4 FD ZEROl&mascerset); 

21 FD SET isienfü, “@uasterset): 

22 maxfd - listenfd; 

23 cliaddr = Mallcc(aZdrlen); 

21 nchildrcn = atci(arav[arqz - 11): 

25 navail = nchildrcn; 

26 cpt-z = Callocinenzldren, sizeoziChild)) ; 

27 /* £rsfork all the children */ 

28 for ii = 0; i « nchildren; i++) 上 

2 child mske(i, listenfd, addrlen); /* parent. returns */ 
30 FD SET(cptr[i].cnild pipefd, &masterset!; 

3L maxfd - maximaxfi, cpzr[i].child pipafs); 

ET ) 

33 Signal (SIGINT, sig irt): 

34 for (3 Y) 

35 rset = masterset; 

36 i= (naveil z= 0) 

37 FD CLR(lisrcenfj, urset}; /* turn off if no available children */ 
28 ngel = seleccímaxf$ + 1, &r&et, NULL, NULL, NULL); 

39 /* check fcr new connsctionc */ 

40 it (FD ISSET(listertd, Sract;) { 

41 clilen = addrien; 

42 conid = Accept(listerfd. cliaddr, &cliler!; 

43 for (i 20; i e nchi dren; i++) 

44 if icptr[i].cnzld status == C. 

45 break: /* available */ 

46 if (i == nchíiire23) 

47 err quit("no available children"); 

40 cptrlil.chila stezus - 1; /* mark child as busy */ 
49 cptr[il.chili counte-; 

50 navail--; 

51 n = Write Ed(cptr({i] child pipefd, "", 1, connid!; 
52 Cloee!conmntd) ; 


continue; /?* all done with select () results */ 
s } 
£6 /* find any newly-available children */ 
e for (i = 0; i whildren; i++) | 
5% iZ (FD ISSIT (cptr [i] -child pipefs. arset)) | 
£9 if ( in = Read(cptr[i].child pipcz3, Gre, 1)! -= Cj 
fû err quit. ("child $43 terminated :nexrectedly", i); 
E cptr(i].child status = 4; 
62 navailc; 
63 if {--nsel == 0) 
få Ta ca /* 411 Gone wits select () results */ 
85 ) 
E6 } 
E? 
ER | 


servenservilis 


图 30-24 ”使 用 描述 符 传递 的 main 函 数 
838 一 840 


如 果 无 可 用 子 进程 则 关 掉 监听 套 接 字 


36-37 ”计数 器 navail 用 于 跟踪 当前 可 用 的 子 进程 数 。 如 果 其 值 为 
0， 那 就 从 select 的 读 摘 述 符 集中 关 抒 与 监听 套 接 字 对 应 的 位 。 这 么 做 防 
止 父 进程 在 无 可 用 子 进程 的 情况 下 accept 新 连接 。 内 核 仍然 将 这 些 外 来 
连接 排 入 队列 ， 直 到 达到 1isten 的 backlog 数 为 止 ， 不 过 我 们 在 没有 得 到 
已 准备 好 处 理 客户 的 子 进 程 之 前 不 想 accept 它 们 。 


accepti XE Tz 


39-55 ”如 果 监 听 套 接 字 变 为 可 读 ， 那 就 有 一 个 新 连接 准备 
好 accept。 我 们 找 出 第 一 个 可 用 〈 即 用 置 ) 的 子 进程 ， 并 使 用 图 15-13 
中 的 write_fd 函 数 把 束 绕 的 已 连接 套 接 字 传递 给 该 子 进程 。 我 们 随 作 为 
辅助 数据 传递 的 摘 述 符 写 出 一 个 单字 市 的 普通 数据 ， 不 过 接收 进程 并 不 
查看 该 字 市 的 内 容 。 父 进程 随后 关闭 这 个 已 连接 套 接 字 。 


我 们 总 是 从 child 结 构 数组 的 第 一 个 元 素 开 始 搜索 可 用 子 进程 。 这 
一 点 意味 痢 该 数组 中 靠 前 排列 的 子 进 程 总 是 比 靠 后 排列 的 子 进程 更 优先 
接收 新 的 连接 。 我 们 将 在 讨论 图 30-2 以 及 碍 看 服务 器 终止 后 的 
child_count 计 数值 时 验证 这 个 结论 。 如 果 不 和 希望 偏向 于 较 早 的 子 进 
程 ， 我 们 可 以 记 住 最 近 一 次 接收 新 连接 的 子 进程 在 child 结 构 数组 中 的 
位 置 ， 下 一 次 搜索 束 从 该 位 置 紧 后 开始 ， 如 果 到 达 数 组 末 病 束 环 绕 回 第 
一 个 元 素 。 不 过 这 么 做 没有 什么 优势 (如 果 有 多 个 子 进程 可 用 ， 那 么 由 
哪个 子 进 程 处 理 一 个 客户 请 求 无 关 紧 要 ) ， 除 非 操 作 系 统 进程 调度 算法 




















RET ERRER ER) I CPUHT BBC BUXERE. IAE TEUER 
0 
一 致 。 


处 理 新 近 可 用 的 子 进程 


56-66 “我 们 将 看 到 child_main 函 数 在 调用 子 进 程 处 理 完 一 个 客户 之 
后 ， 通 过 该 子 进程 的 字 节 流 管道 拥有 端 同 父 进程 写 回 单个 字 节 。 这 使 得 
该 字 节 流 管道 的 父 进程 拥有 端 变 为 可 读 。 父 进程 读 入 这 个 单字 节 (忽略 
其 值 )， 把 该 子 进程 标 为 可 用 ， 并 递增 navail 计 数 器 。 要 是 该 子 进程 意 
外 终止 ， 它 的 字 节 流 管道 拥有 端 将 被 关闭 ， 因 而 read 将 返回 9。 父 进程 
察觉 到 之 后 就 终止 运行 ， 不 过 更 好 的 做 法 是 登记 这 个 错误 ， 并 重新 派生 
一 个 子 进程 取代 意外 终止 的 那个 子 进程 。 


[30-2525 H f child main 函数 。 




















- server/eitidus.c 


23 void 

24 chiló main(iuL i, int listenfd, int adirler., 

zs | 

26 char | 

27 int cormEd; 

26 ssizP t 1; 

29 void web cnild!irt); 

36 pzinti(*'zhild &ld starting\n", (long) getpid(!), 

31 for (;;){ 

32 if | in = Read fd(SIDZR4 F1LENY, &C, i, &connfd); == UC) 
33 err_quit ("read fd returned 0'i; 

34 if icomfd < 0) 

35 arr uit ("ns decerisrcr from read_fd"") ; 

36 web _childiconnic! ; /^ process request */ 

37 Clase «onn td? ; 

36 Write ;STDERPR PILENO, "", 1); /* tell parent we're ready again */ 
39 } 

4o ) 


- serveiciliduis.: 
图 30-25 “描述 符 传递 式 预 先 派生 子 进 程 服 务 器 程序 的 child_main 函 数 
等 竺 来自 父 进程 的 描述 符 


32-33 ”这 个 函数 不 同 于 前 两 节 中 的 版 本 ， 因 为 这 儿 的 子 进 程 不 再 
调用 accept， 而 征 阻 压 在 read_fd 调 用 中 ， 等 竺 父 进程 传递 过 来 一 个 已 
连接 套 接 字 描 述 符 。 


























告知 父 进程 已 准备 好 


38 ”完成 客户 处 理 之 后 ， 子 进程 通过 它 的 字 市 流 管 过 拥有 端 写 出 一 
个 字 市 ， 告 知 父 进程 本 子 进程 已 可 用 〈 即 闲置 )。 


在 图 30-1 中 ， 比 较 Solaris 服 务 器 的 行 4 和 行 5， 我 们 看 到 本 服务 器 慢 
于 上 一 节 中 在 子 进程 之 间 使 用 线程 上 锁 的 服务 器 。 再 比较 Digtial Unix 和 
BSD/OS 服 务 器 的 行 3 和 行 5， 我 们 得 出 类 似 的 结论 父 进程 通过 字 节 流 
管道 把 描述 符 传 递 到 各 个 子 进程 ， 并 且 各 个 子 进 程 通 过 字 节 流 管道 写 回 
单个 字 节 ， 无 论 是 比 使 用 共享 内 存 区 中 的 互 斥 锁 ， 还 是 与 使 用 文件 锁 实 
施 的 上 锁 和 解锁 相 比 都 更 费时 。 


图 30-2 给 出 child 结 构 中 child_count 计 数 器 值 的 分 布 ， 它 是 在 终止 
服务 器 时 由 SIGINT 信 号 处 理 函 数 显 示 的 。 正 如 我 们 随 图 30-24 所 作 的 讨 
ER 数组 中 排 位 越 靠 前 的 子 进程 所 处 理 的 客 
户 数 越 多 。 























30.10 TCPJÍ E HRS ARE. BER EA 
个 线程 


最 近 5 节 独眼 于 每 个 客户 一 个 进程 的 服务 器 ， 或 为 每 个 客户 现 
场 fork 一 个 子 进程 ， 或 者 预先 派生 一 定数 目的 子 进 程 。 如 果 服 务 器 主机 
文 持 线程 ， 我 们 就 可 以 改 用 线程 以 取代 子 进 程 。 


图 30-26 给 出 了 我 们 的 第 一 个 创建 线程 的 服务 器 程序 版 本 。 它 是 图 
30-4 的 一 个 修改 版 本 ， 也 就 是 为 每 个 客户 创建 一 个 线程 ， 以 取代 为 每 个 
客户 派生 一 个 子 进程 。 这 个 版 本 非常 类 似 图 26-3。 














server'servi c 





1 Hiuclude "unplhread.ii* 

2 int 
3 main(int argc, char **argv) 

4{ 

5 int listenfd, comtd; 

5 veid sic int [int); 

7 void *"do2it;void *!; 

8 pthread_t tic 
kl sccklen t. cliten, addrlen; 

10 strz sockaddr *cliadár; 
21 iE (arqc == 3j 
12 listenfd = Tcp listen(NULL, argv[1], &sdirle2); 
13 else if (arg. == 3) 
14 listenftd ~ Tcp listen(argv[1], argv[2;, saddrien!; 
15 els 
16 err_zuit ("usage: serv06 | «host» | «portW»"); 
17 cliaddr = Malloc(aXirilen!; 
1% Signal (SIGINT, sig int); 
Eon ( £4 
20 clilen = addrlen; 

1 vo nfd = Accep (listesf2, clialdr, &ilenb; 
42 Pthread 2reate(&tid, NULL, «doit, (void *) ccnnfd); 
23 ] 

24 } 

25 vaid * 

26 doiz!void *ard) 

27 i 

28 vcid web child'int); 

29 P hre) det arty (pi hread sel (Ys 
30 web child((int) arg); 

31 Close(lint) ars! ; 

32 return (NULL); 

35 | 


- serverer vN 





图 30-26 ”创建 线程 TCP 服 务 器 程序 的 main 函 数 
主线 程 循环 


19-23 “主线 程 大 部 分 时 间 阻 塞 在 一 个 accept 调 用 之 中 ， 每 当 它 返 
SUA A 了 驶 调用 pthread_create 创 建 一 个 新 线程 。 新 线程 执 
行 的 函数 是 doit， 其 参数 是 所 返回 的 已 连接 套 接 字 。 


每 个 线程 的 函数 


25-33 doit 函 数 先 让 自己 脱离 ， 使 得 主线 程 不 必 等 待 它 ， 然 后 调 
Hiweb clientrAZÀ (8130-3) 。 访 函数 返回 后 关闭 已 连接 套 接 字 。 


图 30-1 表 明 这 个 简单 的 创建 线程 版 本 在 Solaris 和 Digital Unix 上 都 快 
于 所 有 预先 派生 子 进 程 的 版 本 。 这 个 为 每 个 客户 现场 创建 一 个 线程 的 版 
本 比 为 每 个 客户 现场 派生 一 个 子 进程 的 版 本 《〈《 行 1) 快 许多 倍 。 


我 们 曾 在 26.5 节 指出 ， 有 3 个 办 法 可 用 于 将 非 线程 安全 函数 转变 成 
线程 安全 函数 。 我 们 的 web_child 函 数 调用 readline 函 数 ， 而 图 3-18 给 出 
的 readline 函 数 版 本 是 非 线 程 eae 我 们 针对 图 3o-26 中 的 例子 运用 
26.5 节 中 第 二 和 第 三 个 办 法 并 测 时 ， 结 果 从 第 三 个 办 法 到 第 二 个 办 法 的 
加 速 比 少 于 1%， VERE] Jgreadlinely 4X Hi 于 读 入 来 目 客 户 的 5 字符 计 
数值 而 已 的 缘故 。 因 此 为 了 简单 起 见 ， 我 们 给 本 章 中 创建 线程 的 服务 右 
程序 使 用 图 3-17 给 出 的 效率 稍 低 却 线程 安全 的 版 本 。 


841—843 





30.11  TCP79"^c 8] EREI s E 
个 线程 各 日 accept 


我 们 已 从 本 章 早先 的 讨论 获悉 预先 派生 一 个 子 进 程 池 快 于 为 每 个 客 
户 现场 派生 一 个 子 进程 。 在 文 持 线程 的 系统 上 ， 我 们 有 理由 预期 在 服务 
器 启动 阶段 预先 创建 一 个 线程 池 以 取代 为 每 个 客户 现场 创建 一 个 线程 的 
做 法 有 类 似 的 性 能 加 速 。 本 服务 器 的 基本 设计 是 预先 创建 一 个 线程 池 ， 
并 让 每 个 线程 各 自 调用 accept。 取 代 让 每 个 线程 都 阻塞 在 accept 调 用 之 
中 的 做 法 ， 我 们 改 用 互 斥 锁 《〈 类 似 于 30.8 节 ) 以 保证 任何 时 刻 只 有 一 个 
线程 在 调用 accept。 这 里 没有 理由 使 用 文件 上 锁 保 护 各 个 线程 中 的 
人 
达到 同样 目的 。 


图 30-27 给 出 的 pthreade7.h 头 文件 定义 了 用 于 维护 关于 每 个 线程 若 
干 信息 的 Thread 结 构 。 








serverpihreadd7. hi 
L typedef struc ( 
4 pthreac t thread tid; /* thread Io */ 
3 lona thread count; /* # connections handled */ 
a ) Threads: 
5 Threac *tstr; /* array st Thread structures; calloc'ed */ 
6 int listenfd, nthrezds: 
7 sovklen t aXiri en; 


8 pthread mut2x t mlock: 
serveriptimeadü7.l 


图 30-27  pthreade7.h3k x fF 


我 们 还 声明 了 一 些 全 局 变量 ， 璧 如 监听 套 接 字 描 述 符 和 一 个 需 由 所 
有 线程 共 孚 的 互 斥 锁 变 量 等 。 


[30-2825 H f main KI ži. 


server/servil7.c 
1 #inzlude * unptliresd.h" 
2 #tinclude *othreadc?7 .h" 


3 pthread mutex t mlock - PTHREAC MUTEX INITIALIZER; 


4 int 

5 ma:r'int arge, char **argv! 

&1 

7 int ir 

8 void Sig_int (int), chread makc(-rt!; 

9 if (argc == 3} 

10 Lisvenfd = Top lise, argu [i], shir ber); 

LL else if (argc -- 4) 

123 liezenfd = Tcp liezen!arqv[1], argw[2], &aa3drlen!, 

13 else 

14 err gl ("usage serv? [ cheost> ] epari#> cHt'reads>"!,; 
i5 nthreads ~ atcol(arcv[argc - 1]!; 

i6 tptr = Vallcec(nchreade, sizeof (Thread) }; 

17 for ii = 0; i < nthresds; i++! 

18 thread make!r); /* only main thread returns tj 
19 Siqnzl(SICINT, sig int); 

20 fend $73 A, 

21 pause!) ; /* everything done by threads */ 
22 } 


serveazservi7.- 


图 30-28 ”预先 创建 线程 TCP 服 务 器 程序 的 main 函 数 
844 


图 30-29 给 出 了 函数 thread_make 和 thread_main。 


serveriptarcedü. c 





1 #include “urpthread.h" 
2 dinclude "pthread27.h" 


3 void 
4 thread maka;inz i) 


5 | 

6 void *tkreaó main(void *), 

7 Pthread create(&tptr[i].zhzead ti3, NULL, Eth>ead main, (void +) il; 
a return; /* main thread returns */ 
9] 

10 void * 

1. thread mair(void *arq) 

12 : 

13 int cornfd; 

14 void web chiidiint); 

15 occklcn t cliicn; 

16 strucz sockacdr *cliaddr; 

17 cliaddr = Malloc(addrlen}) ; 

18 pr-ntE!'thread *à starting\n", (int) arg); 

19 for | 3-3 ) 14 

20 clilen = addrien: 

ce Pthreac rutex lock (&mlock) ; 

<2 comnfd = Acceprilisternfsa, cliaddr, aclilen); 
23 Pthreac vutex_unlock (Smlo-k} ; 

24 tpcr[(ínt) arg} .chreac_count++; 

<5 web_child!connfd! ; /* process request */ 
26 Close (-onunfd! ; 

27 ] 

28 : 


servev/ptim2cd7.c 


M 


图 30-29 thread makefllthread mainrPKZX 
创建 线程 


7 创建 线程 并 使 之 执行 thread_main 函 数 ， 该 函数 的 唯一 参数 是 本 
线程 在 Thread 结 构 数 组 中 的 下 标 。 


21-23 thread_main 国 数 在 调用 accept 前 后 调用 pthread_mutex_lock 
和 pthread_mutex_unlock 加 以 保护 。 


845 


比较 图 30-1 中 Solaris 和 Digital Unix 服 务 器 的 行 6 和 行 7， 我 们 看 到 当 
前 的 服务 器 版 本 快 于 为 每 个 客户 现场 创建 一 个 线程 的 版 本 。 我 们 预期 如 
此 ， 毕 竟 我 们 只 是 在 服务 器 启动 阶段 一 次 性 地 创建 线程 池 ， 而 不 是 每 来 
一 个 客户 现场 创建 一 个 线程 。 事 实 上 在 这 两 个 主机 上 当前 版 本 的 服务 器 





是 所 有 版 本 之 中 最 快 的 。 


图 30-2 给 出 了 Thread 结 构 中 thread_count 计 数 器 值 的 分 布 ， 它 们 
由 SIGINT 信 号 处 理 函 数 在 服务 器 终止 前 显示 输出 。 这 个 分 布 的 均衡 性 是 
由 线程 调度 算法 带 来 的 ， 该 算法 在 选择 由 哪个 线程 接收 互 斥 锁 上 表现 为 
按 顺序 轮 循 所 有 线程 。 


在 诸如 Digital Unix 等 源 自 Berkeley 的 内 核 上 ， 我 们 不 必 为 调用 accept 
而 上 锁 ， 因 而 可 以 把 图 30-29 改 为 没有 互 斥 锁 上 锁 和 解锁 的 版 本。 然而 
这 么 做 导致 进程 控制 CPU 时 间 由 图 30-1 中 行 7 的 3.5 秒 钟 增 长 到 3.9 秒 钟 。 
如 果 继 续 查 看 CPU 时 间 的 两 个 构成 部 分 《用户 时 间 和 系统 时 间 ) ， 我 们 
发 现 没 有 上 锁 的 用 户 时 间 有 所 减少 (因为 上 锁 是 由 在 用 户 空间 中 执行 的 
线程 函数 库 完 成 的 ) ， 系 统 时 间 却 增长 较 多 (因为 当 一 个 连接 到 达 时 所 
有 阻 赛 在 accept 之 中 的 线程 都 被 唤醒 ， 引 发 内 核 的 惊 群 问 题 )》 。 由 于 把 
每 个 连接 浅 站 到 线程 池 中 某 个 线程 需要 某 种 形式 的 互 斥 ， 因 此 让 内 核 执 
行 派 遗 还 不 如 让 线程 自行 通过 线程 函数 库 执行 派 遗 来 得 快 。 

















30.12 ”ICP 预 先 创建 线程 服务 器 程序 ， 
线程 统一 accept 


最 后 一 个 使 用 线程 的 服务 器 程序 设计 范式 是 在 程序 司 动 阶段 创建 一 
个 线程 池 之 后 只 让 主线 程 调用 accept 并 把 每 个 客户 连接 传递 给 池 中 某 个 
可 用 线程 。 这 一 点 类 似 于 30.9 市 的 描述 符 传递 版 本 。 


本 设计 范式 的 问题 在 于 主线 程 如 何 把 一 个 已 连接 套 接 字 传递 给 线程 
池 中 茶 个 可 用 线程 。 这 里 有 多 个 实现 手段 。 我 们 原本 可 以 如 前 使 用 描述 
符 传 递 ， 不 过 既然 所 有 线程 和 所 有 描述 符 都 在 同一 个 进程 之 内 ， 我 们 没 
有 必要 把 一 个 描述 符 从 一 个 线程 传递 到 另 一 个 线程 。 接 收 线程 只 需 知 道 
这 个 已 连接 套 接 字 描 述 符 的 值 ， 而 描述 符 传 递 实 际 传递 的 并 非 这 个 值 ， 
而 是 对 这 个 套 接 字 的 一 个 引用 ， 因 而 将 返回 一 个 不 同 于 原 值 的 描述 符 
《该 套 接 字 的 引用 计数 也 被 递增 ) 。 图 30-30 给 出 的 pthreadg8 .h 头 文件 
定义 了 一 个 与 图 30-27 等 同 的 Thread 结 构 。 











serverptimeadüs. hy 
1 typedef strot ( 
thread t thread tid; /* thread ID */ 
3 jour thread count: /* H connections handisd */ 
4 | Thread: 
3 Threaó *t»tr; /* array of Thread structures; calloc'e? ^/ 
6 sdefine MAXNCLI 32 
7 ifd{MAXNCLT]. iget, izuz; 
3 tad motex t clifd mutex; 
3 pthread ccn3 t clifd conz: 
serveripthreadüs. h 


[30-30 pthreades.h3k x fF 
846 


定义 存放 已 连接 套 接 字 描述 符 的 共享 数组 


6~9 ”我 们 还 定义 一 个 clifd 数 组 ， 由 主线 程 往 中 存 入 已 接受 的 已 连 
接 套 接 字 描述 符 ， 并 由 线程 池 中 的 可 用 线程 从 中 取出 一 个 以 服务 相应 的 
客户 。iput 是 主线 程 将 往 该 数组 中 存 入 的 下 一 个 元 素 的 下 标 ，iget 是 线 
程 池 中 某 个 线程 将 从 该 数组 中 取出 的 下 一 个 元 素 的 下 标 。 这 个 由 所 有 线 
吉 构 自然 必须 得 到 保护 ， 我 们 使 用 互 斥 锁 和 条 件 变量 做 到 
这 一 点 


30-3125 H1 f main Ki Zi. 


1 tinclude "unpthread. h“ 


2 finclu2e "pthreados.h* 

3 static int nthreads; 

4 pchreas_muctex_t clifd mutex = PTIRDAD MUTEM INITIALIZDR; 
5 pthread cond t clitd cond = PTHSEAD COND TN7TIALIZER; 

6 inr 

7 main(int args, char **argv) 

8 | 

a iat i. listenfd, connfd; 

10 veid sig int fint), thread make(int); 

11 scexlen t zdcrlen, clilen; 

12 arrac: sockaddr *cliaddr; 

13 if targe == 3! 

14 listenfd = Tcp listen(HULL, argv(1], &edirlez); 
15 elsa if !arqc -- 4) 

16 dictentd = Top liotcen(arqv[1], arav[2., Saddricn); 
17 else 

18 err_quit("usage: servü8 | «host» ; eportH» <#threadss") ; 
19 cliaddr = Malioc(acdrlen) ; 

20 nthreade = atoi (argv largo - 1j); 

21 tstr = Callo {rtnrsads, sizeof (Thread!); 

22 iget = iput = C: 

23 /* creats all the threats v/ 

2 fcr ii = 0; í < aAthreads; iti) 

25 thresd make 'i); rw only main thread returns */ 
26 SigsaliSIGINT, sig int; 

27 for ( r3 X1 

eg clilen = addrlen; 

29 cornfd = Accepzllistenfz2, cliaddr, &clilenl; 

30 PtErsad wuzex lock(&clzfd nutex!; 

31 clif3[iput] = connf£d: 

2 i= (++iput == MAXNCLI) 

33 iput = 0; 

34 i= fipat == iget! 

35 err_ gquir("iput = iget s td", iputi; 

46 Pthread cond signal(&c_ifd cond) ; 

37 Pthread_wutex_unlock (Sclifd_matex) ; 

38 } 

39 


图 30-31 ”预先 创建 线程 服务 器 程序 的 main 函 数 
创建 线程 池 
23-25 ”使 用 thread_make 创 建 池 中 每 个 线程 。 
等 得 客户 连接 


server'servüs.c 


serveizservili.i 


27-88 EAGER HEAT INTR] BH SE Eaccept HHE, Strat E XE 
PEAY AVIA. — HART PC ERIS, EREMIE C AY Cee FTIR 
符 存 入 clifd 数 组 的 下 一 个 元 素 ， 不 过 需 事 移 获取 保护 该 数组 的 互 斥 
锁 。 主 线程 还 检查 iput 下 标 没 有 赶 上 iget 下 标 〈 知 赶 上 则 说 明 该 数组 不 
WR), FRSA EES, PRE, A RIT ee Reith 
中 茶 个 线程 为 这 个 客户 服务 。 


图 30-32 给 出 了 thread_make 和 thread_main 了 水 数 。 前 者 与 图 30-29 中 
的 版 本 相同 。 

















servev/ptimcoduN. c 





1 #include “unpthread. k" 
2 #inclnuse "p-hreacdó& .hy" 
3 void 


4 thread makse;in- i) 
54 


6 void thread mair (void +); 


Pthread -reate(&tp-r[i,.trrsaG -id, NULL, &thread main, (void *) i]; 


8 return; /* main thread returns */ 
5] 

10 void * 

1i thread main/void *arq) 

12 | 

13 int connfd; 

14 void weh childiirt); 

15 print?(*'thread td startince\n", (int! arg): 

1é for-4 x x EX 

17 Fthread mutex lock |Sclifd_mutex! ; 

18 while (iget == iput) 

ig Pthread cons wait(uclifd cond, uciifd mutex): 
20 comfd ~ clifd[iact]: /* cornected socket to service */ 
21 if il+riget == MAXNCL=} 

22 iget - 0: 

23 Ethraad mutex unlock [éclifd mutex) ; 

24 tptrl;in-) arg) .thread_count++; 

25 wen childiconn?Z!; /* process request */ 
26 Close fennn d? ; 

27 } 

26 ] 


server prm ecdüs. c 


图 30-32 thread makefllthread mainrPK aX 


等 得 为 之 服务 的 客户 描述 


17~26 ”线程 池 中 每 个 线程 都 试图 获取 保护 clifd 数 组 的 互 斥 锁 。 获 
得 之 后 就 测试 iput 与 iget， 夺 两 者 相等 则 无 事 可 做 ， 于 是 通过 调 
用 pthread_cond_wait 睡 眠 在 条 件 变 量 上 。 主 线程 接受 一 个 连接 后 将 调 





用 pthread_cond_signal 疝 条 件 变 量 发 送信 号 ， 以 唤醒 睡眠 在 其 上 的 线 
程 。 若 测 得 iput 与 iget 不 等 ， 则 从 clifd 数 组 中 取出 下 一 个 元 素 以 获得 
一 个 连接 ， 然 后 调用 web_child。 


图 30-1 中 的 测 时 数据 表明 这 个 版 本 的 服务 器 慢 于 上 一 节 中 先 获 取 一 
个 互 斥 锁 再 调用 accept 的 版 本 。 原 因 在 于 本 节 的 例子 同时 需要 互 斥 锁 和 
条 件 变 量 ， 而 图 30-29 中 只 需要 互 斥 锁 。 


如 末 检 查 线程 池 中 各 个 线程 所 服务 客户 数 的 分 布 直方 图 ， 我 们 发 现 
它 类 似 图 30-2 的 最 后 一 栏 。 这 一 点 意味 着 当主 线程 调 
用 pthread_cond_signa1 引 起 线程 函数 库 基 于 条 件 变 量 执行 唤醒 工作 时 ， 
该 函数 库 在 所 有 可 用 线程 中 轮 循 唤醒 其 中 一 个 。 




















30.13 “人 小结 


我 们 在 本 章 中 讨论 了 9 个 不 同 的 服务 露 程 序 设计 范式 ， 并 针对 同一 


个 Web 风 格 的 客户 程序 分 别 运行 了 它们 ， 以 比较 它们 花 在 执行 进程 控制 
上 的 CPU 时 间 : 


DARRE a HE, HEME) ; 

(2) 并 及 服务 器 ， 每 个 客户 请 求 fork 一 个 子 进程 ; 

(3) 预先 派生 子 进程 ， 每 个 子 进 程 无 保护 地 调用 accept; 

(4) 预先 派生 子 进程 ， 使 用 文件 上 锁 保护 accept:; 

(5) 预先 派生 子 进程 ， 使 用 线程 互 斥 锁 上 锁 保 护 accept; 

(6) 预先 派生 子 进程 ， 父 进程 辣子 进程 传递 套 接 字 描述 符 ; 

(7) 并 及 服务 器 ， 每 个 客户 请 求 创建 一 个 线程 ; 

(8) 预先 创建 线程 服务 器， 使 用 互 斥 锁 上 锁 保 护 accept; 

(9) 预先 创建 线程 服务 器 ， 由 主线 程 调用 accept。 
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经 过 比较 ， 我 们 可 以 得 出 以 下 几 点 总 结 性 意见 。 





当 系 统 负载 较 轻 时 ， 每 来 一 个 客户 请 求 现场 派生 一 个 子 进 程 为 之 服 
务 的 传统 并 发 服务 占 程 序 模型 就 足够 了 。 这 个 模型 甚至 可 以 

与 inetd 结 合 使 用 ， 也 就 是 inetd 处 理 每 个 连接 的 接受 。 我 们 的 其 他 
意见 是 就 重负 和 蓓 运行 的 服务 器 而 言 的 ， 壁 如 Web 服 务 嚣 。 

相 比 传统 的 每 个 客户 fork 一 次 设计 范式 ， 预 先 创 建 一 个 子 进 程 池 或 
一 个 线程 池 的 设计 范式 能 够 把 进程 控制 CPU 时 间 降 低 10 倍 或 以 上 。 
编写 这 些 范式 的 程序 并 不 复杂 ， 不 过 需 超越 本 章 所 给 例子 的 是 : 监 





o SUE 随 着 所 服务 客户 数 的 动态 变化 而 增加 或 减少 这 
D% H o 

某 些 实 现 允 许多 个 子 进 程 或 线程 阻塞 在 同一 个 accept 调 用 中 ， 另 一 
些 实现 却 要 求 包 绕 accept 调 用 安置 某 种 类 型 的 锁 加 以 保护 。 文 件 上 
锁 或 Pthread 互 斥 锁 上 锁 都 可 以 使 用 。 

让 所 有 子 进 程 或 线程 自行 调用 accept 通 常 比 让 父 进程 或 主线 程 独自 
调用 accept 并 把 描述 符 传递 给 子 进程 或 线程 来 得 简单 而 快速 。 

由 于 潜在 select 冲 突 的 原因 ， 让 所 有 子 进 程 或 线程 阻塞 在 同一 

个 accept 调 用 中 比 让 它们 阻塞 在 同一 个 select 调 用 中 更 可 取 。 

使 用 线程 通常 远 快 于 使 用 进程 。 不 过 选择 每 个 客户 一 个 子 进 程 还 是 
每 个 客户 一 个 线程 取决 于 操作 系统 提供 什么 支持 ， 还 可 能 取决 于 为 
服务 每 个 客户 需 激活 其 他 什么 程序 〈 知 有 其 他 程序 需 激活 的 话 ) o 
举例 来 说 ， 如 果 accept 客 户 连 接 的 服务 器 调用 fork 和 exec( 壁 如 说 
inetd 超 级 守护 进程 ) ， 那 么 fork 一 个 单线 程 的 进程 可 能 快 于 fork 
一 个 多 线程 的 进程 。 


习题 
30.1 ”在 图 30-13 中 为 什么 父 进程 在 派生 所 有 子 进程 之 后 仍然 保持 监 
听 套 接 字 打开 着 而 不 关闭 它 呢 ? 


30.2 ”你 能 够 把 30.9 节 的 服务 器 程序 重新 编写 成 改 用 Unix 域 数据 报 
万 接 字 取代 Unix 域 字 市 流 套 接 字 吗 ? 需要 做 哪些 改动 ? 


30.3 ”运行 测试 用 客户 程序 ， 并 控 照 你 的 系统 环境 文 持 尽 可 能 多 地 
运行 各 个 服务 器 程序 ， 对 比 你 的 结果 和 本 章 所 报告 的 结果 。 
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本 书 第 2 版 中 还 有 这 上 段 表述 : “我 们 在 3 个 主机 上 运行 各 个 范式 的 服务 
ax: sunos5 (Solaris ) 、alpha (Digital Unix 4.0b) 和 bsdi (BSD/OS 
3.00 . YER, JFJEPPSHERA SR AAG EIKO NELE T. ZAE, íT 
2 的 服务 器 不 能 在 大 多 数 SVR4 主 机 上 运行 〈 见 30.7 节 中 的 讨论 ) ， 在 
BSD/OS 主 机 上 则 不 能 运行 任何 线程 化 服务 器 《〈 因 为 BSD/OS 内 核 不 文 持 
线程 》》。 这 3 个 服务 器 主机 的 硬件 体系 结构 是 不 同 的 ， 因 此 我 们 无 法 在 
它们 之 则 比较 测 时 结果 。 给 出 这 些 测 时 数据 的 意图 是 在 某 个 给 定 主机 上 
而 不 是 在 不 同人 硬件 体系 结构 和 操作 系统 之 间 比 较 各 个 服务 器 设计 范式 ， 
也 就 是 说 在 图 30-1 中 我 们 应 该 纵 癌 比较 而 不 应 该 横 同 比较 。 举 例 来 说 ， 
行 7 的 服务 器 在 Solaris 和 Digital ”Unix 上 都 是 最 快 的 ， 而 行 2 的 服务 器 在 
BSD/OS 上 是 最 快 的 。” 上 鉴于 第 3 版 新 作者 们 没 能 给 出 全 面 的 测 时 数据 且 
没有 说 明 服 务 占 运行 环境 ， 本 译本 的 图 30-1 和 图 30-2 末 用 Stevens 先 生 在 
第 2 版 提供 的 测 时 数据 ， 并 附 以 新 作者 们 给 出 的 数据 。 正 如 Stevens 先 生 
所 言 这些 测 时 数据 引 在 纵 癌 比较 ， 因 此 是 否 采用 新 作者 们 的 新 数据 关系 
不 大 ， 而 且 采 用 Stevens 先 生 的 数据 更 能 说 明 一 些 细 贡 问 题 。 一 一 译 者 注 


图 30-1A 汇 总 了 这 些 测 时 结果 ， 它 是 原 书 第 2 版 中 的 图 27-3。 我 们 需要 
考虑 的 男 一 个 问题 是 客户 请 求 在 可 用 子 进程 池 或 线程 池 中 的 分 布 。 一 一 
译 者 注 
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图 30-1A 过 多 子 进程 或 线程 对 服务 器 CPU 时 间 的 影响 


(3) 此 图 根据 原 书 第 2 版 图 27-3 作 了 修改 。 在 原 书 第 3 版 中 ， 只 保留 了 第 1 
列 中 BSD/OS 的 数据 和 后 几 列 中 Solaris 的 数据 。 一 一 译 者 注 


人 由 此 命令 行 原 书 为 % client 192.168.1.20 8888 5 500 40060。 一 一 编者 
注 

此 命令 行 原 书 为 % client 192.168.1.20 8888 1 5000 40600。 一 一 编 
者 注 


@) 我 们 在 图 30 中 给 出 了 本 例子 〈 行 2) 和 将 在 以 后 相关 两 节 讨 论 的 另外 

两 个 例子 〈《 行 3 和 行 7) 的 CPU 时 间 。 本 例子 〈 前 2 栏 ) 只 讨论 accept 阻 

塞 ， 另 两 个 例子 〈 后 4 栏 ) 讨论 围绕 accept 的 上 锁 保 护 。 

我 们 看 到 CPU 时 间 随 每 次 增加 另外 15 个 〈 不 必要 的 ) 的 子 进程 而 增加 。 

为 了 避免 慰 群 问题 额外 导致 性 能 受 损 ， 我 们 不 希望 有 太 多 的 额外 子 进程 
一 直 闲 置 着 。 一 一 译 者 注 


@Digitial Unix 4.0b 不 文 持 这 个 属性 ， 也 就 无 法 运行 这 个 新 版 本 的 服务 
器 程序 。 一 一 译 者 注 





第 31 章 Tit 


31.1 概述 


在 大 多 数 源 自 SVR4 的 内 核 中 ，X/Open 传 输 接 口 (X/Open Transport 
Interface, XTD 和 网 络 协议 通 第 融 如 终端 IO 系统 那样 也 使 用 流 系 统 
(STREAMS system 或 streams system) KI., © 


我 们 将 在 本 章 给 出 流 系 统 的 概貌 以 及 应 用 程序 用 于 访问 某 个 流 的 函 
数 。 我 们 的 目的 只 是 了 解 网 络 协议 在 流 框架 中 的 实现 机 制 。 另 外 我 们 将 
使 用 传输 提供 者 接口 (Transport Provider Interface, TPI) 开发 一 个 简单 
的 TCP 客 户 程序 。TPI 是 在 基于 流 的 系统 上 XTI 和 套 接 字 通常 使 用 的 传输 
层 访 问 接口 。 包 括 如 何 使 用 流 系 统 编写 内 核 例 程 在 内 的 关于 流 的 更 详尽 
信息 参见 [Rago 1993] 。 











流 由 Dennis Ritchie [Ritchie 1984] 设计 ， 并 于 1986 年 随 SVR3 首 次 
广泛 提供 文 持 。POSIX 规 范 将 流 定 义 为 一 个 选项 组 Coption group) ， 意 
味 着 POSIX 兼 容 系 统 可 以 不 实现 流 ， 然 而 若 实现 则 仍然 必须 符合 POSIX 
规范 。 基 本 流 函 数 包括 getmsg、getpmsg、putmsg、putpmsg、fattach 以 
及 所 有 流 ioct1 命 令 。XTI 往 往 使 用 流 实现 。 所 有 源 目 System V 的 系统 都 
应 该 提供 流 ， 然 而 各 个 4.xBSD 版 本 并 不 提供 流 。 


流 (STREAMS) 这 个 名 字 尽 管 全 为 大 写字 母 ， 却 不 是 一 个 首 字 母 
缩写 词 ， 因 此 改 用 全 小 写字 母 〈streams) 可 能 更 为 合理 。 注 意 区 分 我 们 
在 本 章 中 讲解 的 流 MO 系 统 (steams IO system) 和 “标准 IO 
流 ” (standard IO steams) 。 后 者 在 论 及 标准 MO 函数 库 〈 诸 如 
fopen. fgets, printf PEZ) 时 使 用 。 








31.2 Mbh 


流 在 进程 和 驱动 程序 (driver) 之 间 提 供 全 双 工 的 连接 ， 如 图 31-1 
所 示 。 虽 然 我 们 称 底部 那个 方 框 为 驱动 程序 ， 它 却 不 必 与 某 个 硬件 设备 
相关 联 ， 也 就 是 说 它 可 以 是 一 个 伪 设 备 张 动 程序 〈 即 软件 驱动 程序 ) 。 


851 














图 31-1 一 个 进程 和 一 个 驱动 程序 之 间 的 某 个 流 


Fik (stream head) 由 一 些 内 核 例 程 构成 ， 应 用 进程 针对 流 描 述 符 
执行 系统 调用 《例如 read、putmsg、ioct1 等 ) 时 这 些 内 核 例 程 将 被 激 
活 。 





进程 可 以 在 流 头 和 驱动 程序 之 间 动 态 增加 或 删除 中 间 处 理 模块 
(processing module) 。 这 些 模块 对 顺 痢 一 个 流 上 行 或 下 行 的 消息 施行 
某 种 类 型 的 过 滤 ， 如 图 31-2 所 示 。 





内 核 





图 31-2” 压 入 一 个 处 理 模块 的 某 个 流 





往 一 个 流 中 可 以 推 入 (pushing) 任意 数量 的 模块 。 我 们 说 “ 推 入 ”* 意 
指 每 个 新 模块 部 被 插入 到 流 头 的 紧 下 方 。 





2% bf 2 Ss Cmultiplexor) 是 一 种 特殊 类 型 的 盆 设 备 驱动 程序 ， 它 
从 多 个 源 接受 数据 。 举 例 来 说 ， 可 在 SVR4 上 找到 的 TCP/IP 协 议 族 基于 
流 的 茶 个 实现 如 图 31-3 所 示 ， 其 中 就 有 多 个 多 路 复 选 器 。 
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图 31-3 ”TCP/P 基 于 流 的 某 种 可 能 的 实现 


e 在 创建 一 个 套 接 字 时 ， 套 接 字 函数 库 把 模块 sockmod 推 入 流 中 。 癌 
a a 
ZA 

e CERNE XT DD I, XTIP ŽUR Ektim tA ji. IID 
进程 提供 XTI ”API 的 正 是 XTI 函 数 库 和 timod 流 模块 两 者 的 组 合 。 
XTI API 的 端点 相当 于 套 接 字 API 的 套 接 字 。 








这 里 是 我 们 提 到 XTI 的 少数 几 处 之 一 。 本 书 早 先 版 本 详细 叙述 了 
XTI API， 不 过 它 已 不 被 广泛 使 用 ， 甚 至 POSIX 规 范 也 不 再 涵盖 它 ， 本 
书 中 我 们 就 不 讲述 了 。 图 31-3 展 示 了 XTI 实 现 所 处 的 典型 位 置 ， 本 章 中 
S MS 而 不 提供 任何 细节 ， 因 为 几乎 没有 继续 使 用 XTI 的 
理由 了 。 





e 为 了 针对 XTI 端 点 使 用 read 和 write 访问 网 络 数据 ， 通 常 必须 把 模 
块 tirdwr 推 入 流 中 。 图 31-3 中 中 间 那 个 使 用 TCP 的 进程 就 是 这 么 做 
的 。 推 入 该 模块 后 XTI 函 数 库 中 的 函数 不 能 继续 使 用 ， 那 个 进程 这 
么 做 也 许 已 经 放弃 使 用 XTI， 因 此 我 们 没 给 它 标 上 XTI 函 数 库 。 
所 标的 三 个 服务 接口 定义 顺 着 流 上 行 和 下 行 交 换 的 网 络 消 息 的 格 
式 。 传 输 提 供 者 接口 (Transport Provider Interface, TPI) [Unix 
International 1992bj」 定 义 了 传输 层 提供 者 (例如 TCP 和 UDP) 辣 它 
上 方 的 模块 提供 的 接口 。 网 络 提供 者 接口 (Network Provider 
Interface, NPI) [Unix International ] 定义 了 网 络 层 提供 者 (例如 
IP) 向 它 上 方 的 模块 提供 的 接口 。DLPI 就 是 29.3 节 介绍 过 的 数据 链 
路 提供 者 接口 [Unix International 1991] 。 关 于 TPI 和 DLPI 可 另行 
参考 [Rago1993] ， 其 中 给 有 C 代 码 例子 。 


一 个 流 中 的 每 个 部 件 一 一 流 状 、 所 有 处 理 模 块 和 驱动 程序 一 -包含 
至 少 一 对 队列 〈queue) : 一 个 写 队 列 和 一 个 读 队 列 ， 如 图 31-4 所 示 。 
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K]31-à 流 中 每 个 部 件 至 少 有 一 对 队列 





消息 类 型 

流 消 息 可 划分 为 高 优先 级 (high priority) ~ RÆK (priority 
band) 和 普通 (normal) 三 类 。 优 先 级 共有 256 带 ， 在 0~255 之 间 取 值 ， 
其 中 普通 消息 位 于 带 0。 流 消息 的 优先 级 用 于 排队 和 流量 控制 。 按 约定 
高 优先 级 消息 不 受 流量 控制 影 啊 。 
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图 31-5 给 出 了 一 个 给 定 队 列 中 消息 的 出 现 顺序 。 
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图 31-5 一 个 队列 中 的 流 消息 基于 优先 级 的 排序 


虽然 流 系统 文 持 256 个 不 同 的 优先 级 带 ， 网 络 协议 往往 只 用 代表 经 
加 速 数据 的 带 1 和 代表 普通 数据 的 种 0。 


TPI 不 认为 TCP 带 外 数据 是 真正 的 经 加 速 数据 。 事 实 上 TCP 的 普通 数 
据 和 带 外 数据 都 使 用 之 0。 只 有 那些 让 经 加 速 数据 (并 不 是 像 TCP 中 的 
紧急 指针 而 已 ) 先 于 普通 数据 发 送 的 协议 才 使 用 带 1 发 送 经 加 速 数据 。 


注意 “普通 ”一 词 。 在 SVR4 之 前 的 版 本 中 没有 优先 级 带 的 概念 ， 只 
有 普通 消息 和 优先 级 消息 。SVR4 实 现 了 优先 级 带 ， 并 提供 了 getpmsg 和 
putpmsg 这 两 个 函数 〈 我 们 稍 后 讲解 ) ， 较 早 的 优先 级 消息 于 是 被 重新 
命名 为 高 优先 级 。 问 题 是 如 何 称呼 优先 级 带 在 1~255 之 间 的 新 增设 消 
息 。 常 用 的 术语 定义 [Rage 1993] 称 高 优先 级 以 外 的 消息 为 普通 优先 
级 (normal priority) 消息 ， 然 后 把 这 些 普 通 优先 级 消息 细 分 到 各 个 优先 
级 带 中 。 普 通 消息 一 词 应 该 总 是 指 处 于 带 0 的 消息 。 


尽管 我 们 讨论 的 只 是 普通 优先 级 消息 和 高 优先 级 消息 两 大 类 ， 它 们 
却 分 别 约 有 12 种 和 18 种 。 从 应 用 程序 以 及 我 们 马上 讲解 的 getmsg 和 
putmsg 这 两 个 函数 的 角度 来 看 ， 我 们 仅仅 关注 3 种 不 同类 型 的 消 
息 : M_DATA、M_PROTO 和 M_PCPROTO 《PC 表示 “priority control”, WERI 
制 ， 隐 指 高 优先 级 消息 ) 。 图 31-6 说 明了 这 3 种 消息 类 型 是 如 何 使 
用 write 和 putmsg 这 两 个 函数 产生 的 。 




















putmsq 不 是 是 M DATA 
putmsg =k M_PROTO 





putmsg m dX M PCPROTO 


= 





图 31-6 ”由 write 和 putmsg 产 生 的 流 消 息 类 型 
我 们 将 在 下 一 节 讲 解 putmsg 函 数 时 解释 控制 、 数 据 和 标志 。 
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31.3 getmsg/llputmsgrK Zi 


沿 着 流 上 行 和 下 行 的 数据 由 消息 构成 ， 而 且 每 个 消息 含有 控制 
(control) 或 数据 (data) 亦 或 两 者 都 有 。 如 果 在 流 上 使 用 read 和 
write， 那 么 所 传送 的 仅仅 是 数据 。 为 了 让 进程 能 够 读 写 数据 和 控制 两 
部 分 信息 ， 流 系统 增加 了 如 下 两 个 函数 : 


#include <stropts.h> 








int getmsg(int fd, struct strbuf *ctlptr, struct strbuf *dataptr, int *flagsp); 


int putmsg(int fd, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int flags); 


均 返 回 : 若 成 功 则 为 非 负 值 ， 若 出 错 则 














消息 的 控制 和 数据 两 部 分 各 自由 一 个 strbuf 结 构 说 明 。 


struct strbuf { 


int maxlen; /* maximum size of buf */ 
int len; /* actual amount of data in buf */ 
char *buf; /* data */ 

}; 


注意 strbuf 结 构 和 XTI API 所 用 的 netbuf 结 构 之 间 的 相似 性 。 它 们 
由 3 个 同名 成 员 构 成 ， 不 过 netbuf 结 构 的 两 个 长 度 成 员 是 无 符号 整数 ， 
而 strbuf 结 构 的 两 个 长 度 成 员 是 普通 整数 。 原 因 在 于 有 些 流 函 数 使 用 值 
为 -1 的 len 或 maxlen 表 示 特 殊 的 含义 。 


使 用 putmsg 可 PLA EE RS 音 奶 或 数据 ， 也 可 以 同时 发 送 两 者 。 
为 了 指示 缺失 控制 信息 ， 可 以 把 ctptr 参 数 指 人 定 为 空 指针 ， 也 可 以 把 
ctlptr->len 设 置 为 -1。 同 样 手段 设置 dataptr 参 数 用 于 指示 缺失 数据 。 


如 果 缺 失控 制 信 息 ，putmsg 将 产生 一 个 M_DATA 消 息 〈 图 31-6) ; A 
则 根据 flags 参 数 产 生 一 个 M_PROTO 或 M_PCPROTO 消 息 。 flags 值 为 0 表示 普通 
消息 ， 为 Rs_HIPRI 表 示 高 优先 级 消息 。 


getmsg 的 最 后 一 个 参数 是 一 个 值 一 结果 参数 。 如 果 调 用 时 指定 的 








jagsp 指 回 的 整数 值 为 0， 那 么 返回 的 是 流 中 第 一 个 消息 
消息 ， 也 可 能 是 高 优先 级 消息 ) 。 如 果 访 整数 值 为 Rs_HIPRI， 那 就 等 

一 个 高 优先 级 消息 到 达 流 头 。 无 论 哪 种 情况 ， 存放 到 gaosp 指 向 的 整数 
中 的 值 根 据 所 返回 消息 的 类 型 或 为 0， 或 为 RSs_HIPRI。 


假设 传递 给 getmsg 的 ctlptr 和 dataptr 参 数 均 为 非 空 指针 ， 如 果 没 有 控 
制 信息 待 返回 (也 就 是 即将 返回 一 个 m_pATA 消 息 )， getmsg 就 在 返回 时 
把 ctlptr->len 设 置 为 -1 作为 指示 。 类 似 地 如 果 没 有 数据 待 返回 束 把 
dataptr->len 设 置 为 -1。 
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pug ee 在 出 错时 返回 -1。 然 而 getmsg 仅 在 整个 消息 
完整 返回 给 调用 者 时 才 返 回 0。 如 果 控 制 缓冲 区 不 足以 容纳 完 整 的 控制 
信息 ， 那 就 返 回 非 负 的 MoRECTL， 类 似 地 如 果 数 据 缓冲 区 太 小 ， 那 就 返 
OE DA 如 果 两 个 缓冲 区 都 太 小 ， 那 就 返回 这 两 个 标志 的 逻辑 或 。 


31.4 getpmsg/llputpmsgrK Zi 


当 对 于 不 同 优先 级 带 的 文 持 随 SVR4 被 增加 到 流 系 统 时 ， 以 下 两 
个 getmsg 和 putmsg 的 变 体 函 数 也 被 同时 引入 。 
#include <stropts.h> 


int getpmsg(int fd, struct strbuf*ctlptr, 
struct strbuf*dataptr, int*bandp, int *flagsp); 


int putpmsg(int fd, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int band, int flags); 





HRE: 车 成 功 则 为 非 负 值 ， 





出 错 则 为 -1 


nz 











putpmsg 的 band 参 数 必须 在 0~255 之 间 〈 含 ) 。 如 果 flags 参 数 
为 MSG_BAND， 那 束 产 生 一 个 所 指定 优先 级 带 的 消息 。 把 fags 设 置 
为 Ms6_BAND 并 且 把 band 设 置 设 为 0 等 效 于 调用 putmsg。 如 果 flags 
为 MSG_HIPRI，band 就 必须 为 0， 所 产生 的 是 一 个 高 优先 级 消息 。“ 注 
意 ，putmsg 使 用 不 同名 字 的 RS_HIPRI 标 志 。) 


getpmsg 的 bandp 和 和 flagsp 参 数 是 值 -结果 参数 。flagsp 指 同 的 整数 可 以 
取 值 MsG_HTPRI〈 以 读 入 一 个 高 优先 消息 ) 、MsG_BAND (以 读 入 一 个 优先 
级 至 少 为 bandp 指 向 的 整数 值 的 消息 ) 或 MsG_ANY《〈 以 读 入 任 一 消息 ) 。 
函数 返回 时 ，bandp 指 癌 的 整数 全 有 所 读 入 消息 的 优先 级 带 ，jagsp 指 回 
的 整数 含有 MsG_HIPRI〈 如 果 所 读 入 的 是 一 个 高 优先 级 消息 ) 
或 MsG_BAND 〈 如 果 所 读 入 的 是 其 他 类 型 消息 ) 。 














31.5 ioct1p 2X 
在 流 系 统 中 我 们 将 再 次 使 用 在 第 17 章 中 讲解 过 的 ijoct1 函 数 。 


#include <stropts.h> 
int ioctl(int fd, int request, ... /* void *arg */ ); 
返回 : 若 成 功 则 为 9， 若 出 错 则 





为 -1 
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与 17.2 节 给 出 的 函数 原型 相 比 ， 唯 一 的 变化 是 处 理 流 时 所 必须 包含 
的 头 文 件 是 不 一 样 的 。 
大 约 有 30 个 ioct1 请 求 影响 流 头 ， 每 个 请 求 均 以 I_ 打头 ， 它 们 的 具 
体 说 明 通 各 在 streamio 手 册页 面 中 给 出 。 





31.6 TPI: 传输 提供 者 接口 


在 图 31-3 中 ， 我 们 把 TPI 表 示 为 传输 层 同 它 上 方 的 模块 提供 的 服务 
接口 。 在 流 环境 中 套 接 字 和 XTI 都 使 用 TPI。 在 图 31-3 中 ， 应 用 进程 跟 
TCP 和 UDP 交 换 TPI 消 息 的 是 套 接 字 疯 数 库 和 sockmod 的 组 合 ， 或 者 是 
XTI 函 数 库 和 timod 的 组 合 。 


TPI 是 一 个 基于 消 恩 的 接口 。 筷 定义 了 在 应 用 进程 《例如 XTI 函 数 
库 或 套 接 字 函数 库 ) 和 传输 层 之 间 治 着 流 上 行 和 下 行 交 换 的 消 妃 ， 包 括 
消息 的 格式 和 每 个 消息 执行 的 操作 。 在 许多 实例 中 ， 应 用 进程 向 提供 者 
发 出 一 个 请 求 〈 璧 如 说 “捆绑 这 个 本 地 地 址 >) ， 提 供 者 则 发 回 一 个 响应 
(“成功 ”或 “出 错 *”) 。 一 些 事件 在 提供 者 异步 地 友 生 《对 茶 个 服务 需 的 
连接 请 求 的 到 达 ) ， 它 们 导致 沿 着 流 癌 上 发 送 的 消息 或 信和 号。 


我 们 可 以 绕 过 XTI 和 套 接 字 和 直接 使 用 TPI。 我 们 将 在 本 节 改 用 TPI 取 
代 套 接 字 重新 编写 我 们 的 简单 时 间 获 取 客 户 程序 〈 图 1-5) 。 拿 编程 语 
言 进行 类 比 ， 使 用 套 接 字 或 XTI 好 比 使 用 诸如 C 或 Pascal 等 高 级 语言 缠 
程 ， 而 直接 使 用 TPI 好 比 使 用 汇编 语言 编程 。 我 们 并 不 提倡 在 现实 应 用 
程序 中 直接 使 用 TPI。 不 过 查看 TPI 如 何 工 作 并 开发 本 例子 有 助 于 我 们 更 
好 地 理解 在 流 环境 中 套 接 字 函数 库 和 XTI 函 数 库 的 工作 原理 。 


图 31-7 是 我 们 的 tpi_daytime.h 头 文件 。 




















streartstp! deytunie.h 





1 8-nuclude "ur.pxLi . ti" 

2 ":nclude Baci dra 

2 # include oye/tihdr.h> 

4 void tpi bind(iat. const vo *, gize t): 


* void tpi_comnect {in=, const void +, size t! 
6 siza & tpi read(int, void *, size =); 
7 void tpa_cless int); 





图 31-7 “我们 的 tpi_daytime.h 头 文件 


我 们 需要 与 <sys/tihdr .h> 一 道 包含 一 个 额外 的 流 头 文件 
<sys/stream.h>， 其 中 前 者 给 出 了 所 有 TPI 消 息 的 结构 定义 。 
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图 31-8 是 我 们 的 时 间 获 取 客 户 程序 的 main 函 数 。 


steearis/tpt: davtinte.c 





1 #include "Lpi dayLime.Li* 
2 int 
3 main(int args, char **argv) 
4i 
5 int fd, 3; 
6 char recvline[MAXLIHE + 1]; 
7 struct goczaddr in myaidr, eervaddr, 
6 i= (argc !- 2) 
à err_quit. ("usage: tpi daytime <IPadiressə"); 
10 fd = Oper(X7CI TC2, 9 RDWR, C); 
11 /*bind any local adirees */ 
12 bserolGmyaddr, sizeoiz myazdr]): 
13 myadi-.sin family = AP INET; 
14 mvyadar.sin_addr.s addr = rtonl[INADIR ANY) ; 
15 myadzr.oin por = hntons(0): 
16 tpi_bind(fd, &ryaddr, sizeof struct socksddr ia3]); 
17 /*fill in server's address */ 
18 bzevo(&kssruaddr, sizeof i(ssrvaddr)); 
cervadar.cin tamily = AF INET; 
20 servsdór.sin pert - htons(i3!; /* Gaytime server */ 
21 Inet ptor(AF TNET, &-gví1], &servaddr.sir adir); 
22 tpi_comnect (fd, &servadd-z, sizecf(struct sockaddr ini); 
23 for (r£; ki 
24 if | in - tpi rea3;£d. recvline. MAXLINE)) ~= 0) { 
25 if ín == 0) 
ZE break; 
27 Lloc 
26 err sysi("tpi read error"); 
29 } 
30 recvline[n] = 0; /* null terminets */ 
31 Eput3;recvline, astdcu-); 
32 } 
33 tpi_close (fri) ; 
34 exit (0); 
35 ] 


strecms/tpi dayvlinte.c 


图 31-8 TPI 时 间 获 取 客 户 程序 的 main 函 数 
打开 传输 提供 者 ， 捆 绑 本 地 地 址 


10~16 ”打开 与 传输 提供 者 TCP 对 应 的 设备 (通常 为 /dev/tcp) > 
INADDR_ANY 和 端口 0 填写 一 个 网 际 网 套 接 字 地 址 结构 ， 告 知 TCP 捆 绑 任 意 
一 个 本 地 地 址 到 本 地 端点 。 捆 绑 工 作 通 过 调用 我 们 稍 后 给 出 的 tpi_bind 
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填写 服务 器 地 址 ， 建 立 连 接 


17-22 ”以 服务 器 主机 卫 地 址 〈 取 自命 令 行 ) 和 端口 13 填 写 另 一 个 
网 际 网 套 接 字 地 址 结构 ， 然 后 调用 我 们 的 tpi_connect 函 数 建立 连接 。 


从 服务 器 读 入 数据 ， 复 制 至 标准 输出 

23-33 ”与 其 他 时 间 获 取 客 户 程 序 一 样 ， 我 们 简单 地 把 数据 从 连接 
复制 到 标准 输出 循环 ， ee Eid ( 即 FIN 分 节 ) 时 
跳出 循环 然后 调用 我 们 的 tpi_close 函 数 关 闭 端 


图 31-9 是 我 们 的 tpi_bind 函 数 。 








sfreams/ipi_bind.c 


1 #include "toi daycime.h" 

2 við 

3 tpi bindl!irt žá, const void *addr, size t adZrler; 

ae 

5 stracc [ 

6 struct 7 bind reg mx twr; 

7 char addr [128] ; 

8 ] bing veq; 

9 szrue- | 

16 struct T bind ack msg dr; 

11 char addy [128]; 

12 ] bind ack; 

13 strae strbuf ctl1baf; 

14 S-rJac- T error ack ‘error ack; 

15 int lags; 

16 bind req.msg hzr.PRIM type = T P-ND REO; 

17 bind req.meg hor. ADDR length = addrlen; 

18 bind req.msg hir.ALDa offset ~ s:zecf(szruct T bind req); 
19 bind req.meq hir.CONIND number = U; 

20 memcpy bind rez.addr, addr, adrien), /* sockaddr inl| */ 
21 elif len s sizeofistruct T hind req! e addrlen; 

22 eclouf.buf = [char *) bind req; 

z3 Putmsgižd, actlbut, NULL, 0); 

z4 czlouf.maxlen = sizecf (bind ack): 

25 c-luuf.len = 0; 

26 czlouf.buf - (char *) «bind ack; 

27 tlags - BS HIPRI; 

z8 Getmsaizd. &ctlbuf, NULL. &flsgs!; 

29 if (c-Thuf.len c lint) sizeof (long)) 

30 err zuit ("bad length from getmsg") ; 

3l ewiteh (bind ack.nsg hdr.PRIM types) | 

32 case T BIN2 ACX: 

33 return; 

34 case T ERROR ACK: 

3s a= [ctlbuf.len < lint) cizcot (struct T crrcr àck:) 
36 er quit("5ad length for T ERROR ACK"':; 

37 error ack = (s-ruct. T er ror ack +) hind ack.mmg hdr: 
48 err cuit ("Ll ERROR ACK from bind itd, $3)", 

39 errcr ack >TLI_errcr, error ack »L.NIX errcr!; 


40 default ; 
31 err suit (“unexpected message -ype: $i", bind ack. me: ther. ERIM type): 
42 } 


sireamsfipi bind.c 


图 31-9 tpi bindPAZK: 捆绑 一 个 本 地 地 址 到 一 个 端点 
填写 T_bind_req 结 松 


16-20 ”<sys/tihdr.h> 头 文件 如 下 定义 T_pind_req 结 构 。 


struct T bind req ( 
t scalar t PRIM type; /* T BIND REQ */ 


t scalar t ADDR length; /* address length */ 

t scalar t ADDR offset; /* address offset */ 

t uscalar t CONIND number; /* connect indications requested */ 
/* followed by the protocol address for bind */ 


MATPRE ENNA -SKEARE BOP SRR T ST. R 
们 把 bind_req 结 构 定 义 为 以 T_bind_req 结 构 打 头 ， 后 跟 用 于 存放 待 捆绑 
本 地 地 址 的 一 个 缓冲 区 。TPI 对 该 缓冲 区 的 内 容 未 做 任何 规定 ， 它 由 具 
体 的 提供 者 定义 。TCP 提 供 者 期 符 该 缓冲 区 含有 一 个 sockaddr_in 结 构 。 


填写 T_bind_req 结 构 ， 把 ADDR_length 成 员 设置 成 地 址 大 小 《〈 对 于 网 
际 网 套 接 字 地 址 结构 为 16 字 节 ) ， 把 ADDR_offset 设 置 成 地 址 的 字 节 偏 
移 量 〈 紧 跟 在 T_bind_req 结 构 之 后 ) 。 这 个 位 置 难以 保证 是 为 即将 存放 
在 那儿 的 sockaddr_in 结 构 适 当地 对 齐 的 ， 因此 我 们 调用 memcpy 把 调用 者 
给 定 的 地 址 结构 复制 到 bind_req 结 构 中 《而 不 是 使 用 结构 赋值 运算 等 方 
式 ) 。 既 然 我 们 是 客户 而 不 是 服务 器 ， 于 是 把 coONIND_number 设 置 为 0。 








调用 putmsg 


21~23 ITPI 要 求 把 我 们 刚 构造 的 结构 作为 一 个 M_PRoTo 消 息 传递 给 
提供 者 。 于 是 我 们 把 这 个 bind_req 结 构 指 定 为 控制 信息 调用 putmsg， 同 
时 指定 缺失 数据 且 标 志 为 0。 


调用 getmsg 读 入 高 优先 级 消息 
24-30 对 于 T_BIND_REQ 请 求 的 啊 应 或 者 是 T_BIND_ACK 消 息 ， 或 者 
是 T_ERROR_ACK 消 息 。 这 些 确 认 消 息 是 作为 高 优先 级 消息 (M PCPROTOD 
发 送 的 ， 我 们 于 是 指定 Rs_HTPRI 标 志 调 用 getmsg 读 入 它们 。 既 然 该 应 答 
是 一 个 高 优先 级 消息 ， 它 将 绕 过 流 中 任意 普通 优先 级 消息 。 
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这 两 个 可 能 的 应 答 消 息 的 结构 定义 如 下 。 


struct T bind ack ( 
t scalar t PRIM type; /* T BIND ACK */ 

















t scalar t ADDR length; /* address length */ 
t scalar t ADDR offset; /* address offset */ 
t uscalar t CONIND number; /* connect ind to be queued */ 


/*followed by the bound address */ 


struct T error ack { 
t scalar t PRIM type; 
t scalar t ERROR prim; 
t scalar t TLI error; 
t scalar t UNIX error; 


T. ERROR ACK */ 

* primitive in error */ 
TLI error code */ 

* UNIX error code */ 


"MM 
SED = 


3 BA AP E As BEL — A Te RE RT AT PE E 
一 个 T_BIND_ACK 消 息 读 入 应 答 ， 查 看 类 型 值 之 后 再 相应 地 处 理 该 消息 。 
ee Ee ees eae 
空 指针 。 


在 验证 所 返回 的 控制 信息 量 至 少 是 一 个 长 整数 的 大 小 时 ， 我 们 必须 
小 心地 把 sizeof 的 值 类 型 强制 转换 成 一 个 整数 。sizeof 运 算 符 返回 的 是 
一 个 无 符号 整 型 ， 而 getmsg 返 回 的 strbuf 结 构 len 成 员 可 能 是 -1。 然 而 由 
于 小 于 比较 运算 符 的 左边 是 一 个 有 符 写 值 ， 右 边 是 一 个 无 符号 值 ，C 编 
译 器 于 是 把 有 符号 值 类 型 转换 成 无 符号 值 。 在 补 码 (twos-complement) 
体系 结构 上 ，-1 作 为 无 符号 值 看 竺 非常 之 大 ， 导 致 -1 大 于 4《〈 假 设 一 个 长 
整数 占据 4 个 字 节 ) 。 


处 理应 答 














31-33 ”如 果 应 答 是 T_BIND_AcK， 那 么 捆绑 成 功 ， 我 们 于 是 返回 。 绑 
定 在 端点 上 的 实际 地 址 由 pind_ack 结 构 的 addr 成 员 返 回 。 





34-39 ”如 果 应 答 是 T_ERROR_ACK， 那 就 验证 所 收 到 的 是 完整 的 消 
息 ， 然 后 显示 消息 结构 中 的 3 个 返回 值 。 在 我 们 这 个 简单 的 程序 中 ， 如 
果 发 生 错 误 就 直接 终止 ， 而 不 再 返回 到 调用 者 。 

通过 把 我 们 的 main 函 数 改 为 捆绑 某 个 非 0 端口 ， 我 们 就 可 以 看 到 这 
种 出 自 捆 绑 的 错误 。 举 例 来 说 ， 如 果 尝 试 捆绑 端口 1 (这 需要 超级 用 户 
权限 ， 因 为 它 是 一 个 1024 以 内 的 端口 ) ， 我 们 将 得 到 如 下 输出 : 


solaris % tpi daytime 127.0.0.1 
T ERROR ACK from bind (3, 0) 





该 系统 上 错误 EAccES 的 值 为 3。 如 果 我 们 尝试 捆绑 一 个 1023 以 上 却 
正 被 男 一 个 TCP 端 点 使 用 的 端口 ， 我 们 将 得 到 如 下 输出 : 


solaris % tpi daytime 127.0.0.1 
T ERROR ACK from bind (23, 0) 
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该 系统 上 错误 EApDpRBusY 的 值 为 23。 包 
下 一 个 函数 是 图 31-10 中 的 tpi_connect， 它 建立 与 服务 器 的 连接 。 


streéamsitpi. commeci.c 
2 #include "Lpi day-ime.lh" 


2 void 

3 tpi connectí(int fd, conot void *acdr, size_t addrlen) 
t 

5 struc- [ 

6 struct T conn req msg ndr; 

了 enar adzr[-28]; 

8 } comn req; 

3 struc [ 

10 struct T conn son meg hdr; 

1i enar adzr|-28]; 

12 } coni con; 

13 struc- strbuf ctlbuf; 

14 union T primitives revbuf; 

15 struct T cer-cor ack ‘*error_ack; 

16 strut T discon ind *discon nd; 

17 int flags; 

18 ccnn req.meq har.PHIM type = FT CONN RSQ; 

19 ccnn req.meg ha3r.DEST length = addrlen; 

20 conn reqg.msg tir. DEST offset = sizecf(s-ruct T com: reg); 
ai conn req.meg hir.OpT length - 0; 
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22 ccnn reg.msg hi-.OPT offset = 0; 


23 mancpy (conn_req.addr, addr, adár:en); /* scexaddr_in{} */ 
24 CE-DUE .Lenm = eizsof;struct T corn req) + addrlen; 

25 ctlbuf.buf = (char *) &conn req; 

26 Putusgifd, &ctlbuf, NULL, 0); 

27 cL buf makler = sizeof (union Tprimit ives! ; 

"n ct.but.len ~ 0; 

29 Ct-Dut.butf = (char +) arcvbut; 

30 flags = R3 HIPRT; 

a- Getmsgifd, &ctlbuf, NOLL, flags); 

3z if (crclbuf.len < [int) sizeof (lonz) ) 

33 err quit("tpi conncct: baad Length trom gctrsag") ; 

34 s«-tcalrcvbuf.tyrze) { 

35 case T ON BACK: 

36 break: 

47 case T_ERROR_ACK: 

28 if (ctlbuf.len ~ iint} sizecf{struct T_errcr_ack') 

39 err mit ("tpi connect: had length for T RRROR ACK':; 
49 error 3CK = (struct T errcr ack *) arovbuf; 

4- crr quit("tpi connect: T ERROR ACK trom com ibd, td)", 
42 errcr ack-»TLI error, error ack- >CNIX errcr!; 
41 default: 

g4 err quit('tpi connect: unexpected message tyre: *d', rcvbuf.type): 
45 } 

46 ctlbuE.maxler - sizecf(conn con): 

47 cr-huf.len = 0; 

a8 CEZPUE buf = (char *) «conn con; 

49 tlags = 0; 

50 Getvsg!fd, actlbuf, NULL, aflags!; 

81. il (clLibul.len < linl) sizeof(longl) 

52 err quit("tpi comectz: bad length from cemmag"): 

53 ew.tealconn con.mog ndr.PRIM tvce) { 

£4 case T CONN CON. 

55 break; 

56 case T DISCON INL: 

67 it (ctlbuf.-en < (int) Eiaecf(struct T diecon ind)! 

58 crr guit("tpi conrect2: bad length tor 7 DISCON IND";; 
59 discon ind = ‘struct T 3isccn ind *! &corn ccn.msg bdr.; 
ED exr quit("tpi connect2: 7 DISCON IND from conn išdi", 
6. discon ind--DISCUN reason); 

2 default; 

£3 evr quit(*tpi connect2: unexpected message type: 8d", 
Ea coni oog.msg hdr.PR7M type) ; 

es } 

€6 } 


streamsitpi comieci.c 


图 31-10 tpi connectPAZX: 建立 与 服务 器 的 连接 
填写 请 求 结 构 并 发 送 给 提供 者 
18-26 TPI 定 义 了 一 个 T_conn_req 结 构 ， 用 于 存放 连接 的 协议 地 址 


和 选项 : 


struct T_conn_req { 


t_scalar_t 
t_scalar_t 
t_scalar_t 
t_scalar_t 
t_scalar_t 


PRIM type; 


DEST length; 
DEST offset; 


OPT length; 
OPT offset; 


/* T CONN REQ */ 

/* destination address length */ 
/* destination address offset */ 
/* options length */ 

/* options offset */ 


/* followed by the protocol address and options for connection */ 


}; 


束 像 tpi_bind 函 数 一 样 ， 我 们 自行 定义 一 个 名 为 conn_req 的 结构 ， 
Ton tea 吉 构 以 及 用 于 存放 协议 地 址 的 空间 。 填 写 一 
个 conn_req 结 构 ， 把 处 理 选项 的 那 两 个 成 员 设 置 为 0。 单 纯 指 定 控 制 信 
晨 调 用 putmsg， 同 时 把 标志 指定 为 0%， 以 顺 着 流下 行 肥 送 一 个 M_PROTO 消 


JU o 


读 入 响应 
27-45 ”调用 getmsg 期 待 接 收 T_ok_Ack 消 息 (如 果 连 接 建立 已 经 启 


动 ) 或 者 T_ERROR_0K 消 息 CREER ! 


struct T ok ack { 
t scalar t 
t scalar t 


}; 


PRIM type; /* T. OK ACK */ 
CORRECT prim; /* correct primitive */ 
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如 果 发 生 错 误 就 终止 。 既 然 不 知道 将 收取 什么 类 型 的 消息 ， 我 们 于 
是 定义 一 个 名 为 T_primitives 的 由 所 有 可 有 上 的 请 求 和 应 答 组 成 的 联合 
并 分 配 一 个 这 个 类 型 的 联合 ， 在 调用 getmsg 时 用 作 控 制 言 息 的 输入 缓冲 


xX. 
等 待 连接 建立 完成 

46-65 “表示 成 功 的 T_oK_AcKk 消 息 只 是 告诉 我 们 连接 建立 已 经 启 
动 。 现 在 必须 等 待 T_cCoONN_cON 消 息 以 获悉 对 端 已 经 确认 该 连接 请 求 。 


struct T conn con ( 


t scalar t PRIM type; /* T CONN CON */ 

t scalar t RES length; /* responding address length */ 
t scalar t RES offset; /* responding address offset */ 
t scalar t OPT length; /* option length */ 


t scalar t OPT offset; /* option offset */ 


/* followed by peer's protocol address and options */ 





再 次 调用 getmsg， 不 过 所 期 待 的 消息 是 作为 一 个 M_PRoTo 消 息 而 不 
是 一 个 M_PCPRoT0 消 息 发 送 的 ， 于 是 把 标志 设置 为 0。 如 果 接 收 
到 T_coNN_cON 消 息 ， 那 么 连接 建立 完毕 ， 函 数 接着 返回 ; 但 是 如 果 连 接 
未 能 建立 〈 对 端 进程 不 在 运行 、 发 生 超 时 等 原因 ) ， 那 就 会 收 到 一 


个 T_DISCON_IND 消 息 : 


struct T discon ind ( 


t scalar t PRIM type; /* T DISCON IND */ 
t scalar t DISCON reason; /* disconnect reason */ 
t scalar t SEQ number; /* sequence number */ 


}; 


我 们 可 以 设法 查看 由 提供 者 返回 的 各 种 错误 。 首 先 指定 一 个 不 在 运 
行 标准 daytime 服 务 占 的 主机 的 IP 地 址 : 


solaris % tpi daytime 192.168.1.10 
tpi_connect2: T_DISCON_IND from conn (146) 





错误 146 表 示 ECONNREFUSED。 接 着 指定 一 个 未 接 入 因特网 的 IP 地 址 : 


solaris % tpi daytime 192.3.4.5 
tpi connect2: T DISCON IND from conn (145) 


s a 再 次 对 该 卫 地 址 运行 本 程序 ， 我 们 得 到 另 


solaris % tpi daytime 192.3.4.5 
tpi connect2: T DISCON IND from conn (148) 


IX YK EH VR 14872 7NEHOSTUNREACH. xj PY SZ HARE DIE T3 
次 没有 导致 ICMP 主 机 不 可 达 错 误 的 返 送 ， 第 第 二 次 则 导致 返 送 这 个 错 
ix. 
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图 31-11 给 出 下 一 个 函数 tpi_read， 它 从 一 个 流 中 读 入 数据 。 


streamsipi_read.c 





L 4include "Lpi dey lio. ti? 


2 ssize t 
3 Tpi read [int td, void *buz, size t len! 


4 ( 

5 struct strouf ctlbuf; 

5 struct str-uf datbuf; 

7 union T primitives rcvbu-; 

3 int ELags; 

9 ctlbuf.raxlen = sizeof (union T primitives!; 
10 Ctlbuf.buf - (char *! urcvbuf; 

1i datbut.msxlen = Len; 

12 datbut.buf = buf; 

13 atin’ em = 0; 

14 flags - C: 

15 Getmcq(tz, &octlbuf, adatbut, &flaas!; 

16 i= (ctlbuf.len >- (int) sizeof[loag!) 1 

17 if oirevhaf.type zz T LATA TW! 

1&8 re-urm(datbu?.-zn); 

19 else if (revbu=.typ= == T ORDREL =ND) 
20 return (01; 

21 "um 

2a arr quit('tpi read: unexpected type sd", rcvbuf.typs;; 
23 } elce if (ctlzuf.len =- -1) 

24 return (datbut.l=n) ; 

25 else 

2€ arr quit('tpi read: bad length fron getmsq*); 
25 ] 


sireamsApi read.c 





图 31-11 tpi_read Zi: 从 流 中 读 入 数据 
读 控 制 信 息 和 数据 ， 处 理应 答 


9-26 ”这 次 我 们 调用 getmsg 同 时 读 入 控制 信息 和 数据 。 用 于 返回 数 
据 的 strbuf 结 构 指 向 调用 者 给 定 的 缓冲 区 。 在 读 入 时 可 能 会 在 流 上 出 现 
4 种 不 同情 形 。 


。 数据 作为 一 个 M_DATA 消 息 到 达 ， 这 通过 返回 的 控制 长 度 被 设置 为 -1 
指示 。 数 据 由 getmsg 复 制 到 调用 者 给 定 的 缓冲 区 ， 其 长 度 则 作为 本 
函数 的 返回 值 返回 。 

。 数据 作为 一 个 M_DATA_IND 消 息 到 达 ， 这 种 情况 下 控制 信息 是 一 
个 T_data_ind 结 构 。 
struct T data ind ( 


t scalar t PRIM type; /* T DATA IND */ 
t scalar t MORE flag; /* more data */ 
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如 果 返 回 这 样 的 消息 ， 我 们 就 忽略 MoRE_flag 成 员 《〈 对 于 像 TCP 这 样 
的 字 市 流 协 议 该 成 员 不 可 能 锐 设 置 ) ， 并 返回 由 getmsg 复 制 到 调用 者 给 
定 的 缓冲 区 中 的 数据 的 大 小 。 


e 到 达 一 个 T_ORDREL_IND 消 息 ， 表 示 TCP 提 供 者 收取 的 所 有 分 节 均 已 
被 消费 ， 下 一 个 分 节 是 FIN。 


struct T ordrel ind { 
t scalar t PRIM type; /* T ORDREL IND */ 


}; 


这 就 是 顺序 释放 。 我 们 就 返回 0， 以 向 调用 者 指示 已 在 连接 上 遇 到 
EOF. 


e 到 达 一 个 T_DIScoN_IND 消 息 ， 表 示 收 到 一 个 断 连 请 求 。 对 于 TCP 提 
供 者 ， 本 情形 发 生 于 在 一 个 已 存在 连接 上 收 到 一 个 RST 之 后 。 在 我 
们 这 个 简单 的 例子 中 ， 我 们 不 处 理 这 种 情形 。 


图 31-12 是 我 们 的 最 后 一 个 函数 tpi_close。 








streanrs/tpt_clove.c 





3 HBinclude "tp day ime .hy 

2 void 

3 tpi clcseiint fa. 

a ( 

5 Szracz T Ordrel reg ordrcl reg; 

6 strac: strbuf ctlbuf; 

1 ordrel veq.PR M type = T URDREL KEQ; 
a ello len s sizeof ist nuct T_orärel_ regi; 
S cclouf.buf = (char *) cordrel req; 
10 Putmsgiid, &ctlbuf, NULL, 0): 

il Close (fd); 

12 | 


sreamis/rpi. close.c 





图 31-12 tpi_close 函 数 : 向 对 端 发 送 一 个 顺序 释放 


Pee) Xf vir AC TA MBL IP PE HL 





7-10 ”构造 一 个 T_ordrel_req 结 构 并 调用 putmsg 将 其 作为 一 
^*M PROTOJYH E XH X. AN PR CAE DFP XTIA t_sndrel ef Zi. 


struct T ordrel req { 
long PRIM type; /* T ORDREL REQ */ 
/ 





本 例子 给 我 们 展示 了 TPI 的 风味 。 应 用 进程 沿 着 流下 行 回 提供 者 发 
送 消息 (请 求 )， 提 供 者 则 沿 着 流 上 行 发 送 回 消息 (应答)。 一 些 消息 
交换 是 比较 简单 的 请 求 -应 答 情 形 〈 例 如 捆绑 一 个 本 地 地 址 )， 另 一 些 
消息 交换 则 需要 耗费 一 段 时 间 例如 建立 一 个 连接 ) ， 并 人 允许 我 们 在 等 
待 应 答 期 间 做 些 事 情 而 不 是 空 等 。 我 们 选择 编写 使 用 TPI 的 TCP 客 户 程 
序 而 不 是 服 务 器 程序 是 为 了 简单 ， 编 写 使 用 TPI 的 服务 器 程序 并 合理 地 
处 理 连 接 则 要 困难 得 多 。 
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从 XTI 到 TPI 的 函数 映射 比较 接近 ， 而 从 套 接 字 到 TPI 的 映射 却 不 那 
么 接近 。 尽 管 如 此 ， 无 论 是 XTI 函 数 库 还 是 套 接 字 函数 库 都 处 理 了 TPI 所 
需 的 大 量 细节 ， 从 而 简化 了 应 用 程序 的 编写 。 


我 们 可 以 比较 一 下 在 本 章 中 看 到 的 使 用 TPI 完 成 网 络 操 作 与 在 套 接 
字 实 现 于 内 核 中 的 系统 上 完成 同样 操作 所 需 的 系统 调用 个 数 。TPI 情 形 
捆绑 一 个 本 地 地 址 需要 2 个 系统 调用 ， 内 核 套 接 字 情 形 只 需要 1 个 
CTCPv2 第 454 页 ) 。TPI 情 形 在 一 个 阻塞 式 摘 述 符 上 建立 一 个 连接 需要 
3 个 系统 调用 ， 内 核 套 接 字 情形 只 需要 1 个 〈TCPv2 第 466 页 . 








31.7 ^£ 


XTI 一 般 使 用 流 来 实现 。 为 访问 流 子 系统 而 提供 的 4 个 新 函数 
是 getmsg、 getpmsg. putmsg 和 putpmsg， 己 有 的 ioct1 函 数 也 被 流 子 系统 
频繁 使 用 。 


TPI 是 从 上 层 进入 传输 层 的 SVR4 流 接口 。XTI 和 套 接 字 均 使 用 TPI， 
如 图 31-3 所 示 。 作 为 展示 TPI 所 用 的 基于 消息 接口 的 一 个 例子 ， 我 们 直 
接 使 用 TPI 开 发 了 时 间 获 取 客 户 程序 的 一 个 版 本 。 





习题 


31.1 在 图 31-12 中 ， 我 们 调用 putmsg 治 着 流下 行 发 送 一 个 顺序 释放 
请 求 ， 然 后 立即 关闭 该 流 。 如 果 在 关闭 该 流 期 间 我 们 的 顺序 释放 请 求 被 
流 子 系 统 弄 于， 将 会 发 生 什 么 ? 
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QDXTI 是 独立 于 套 接 字 API 的 男 一 个 网 络 编程 API。 本 章 在 本 书 第 2 版 中 
属于 第 四 部 分 (X/Open 传输 接口 编程 》， 第 3 版 仪 仅 保 留 了 这 一 部 分 如 
此 一 章 。 本 书 第 3 版 新 作者 没有 为 孤立 的 本 章 另 起 一 个 部 分 ， 而 是 不 恰 
当地 把 它 编排 在 介绍 套 接 字 API 的 第 三 部 分 〈 高 级 套 接 字 编程 ) 中 。 通 
常 只 有 在 源 自 SVR4 的 内 核 上 套 接 字 API 才 会 和 X/Open 传输 接口 API 一 样 
使 用 流 系统 实现 。 译 者 注 


@) 这 个 错误 是 TPI 为 文 持 XTI 而 引入 的 。 文 持 TLI 的 较 早 版 本 TPI 在 请 求 
捆绑 一 个 已 使 用 的 端口 时 将 另行 捆绑 一 个 未 使 用 的 端口 。 这 意味 着 捆绑 
众所周知 端口 的 服务 器 将 不 得 不 比较 返回 的 地 址 〈 出 自由 第 三 个 参数 为 
非 空 指针 的 t_bind 调 用 返回 的 T_bind_ack 消 息 ) 和 请 求 的 地 址 ， 如 果 不 
一 致 就 放弃 。 译 者 注 











附录 A  IPv4. IPv6. ICMPv4TRI 
ICMPv6 


A.1 概述 


本 附录 给 出 IPv4、IPvV6、ICMPv4 及 ICMPvV6 的 概貌 。 这 些 材 料 所 提 
供 的 额外 背景 知识 对 于 理解 第 2 章 中 有 关 TCP 和 UDP 的 讨论 会 有 所 帮 
助 。 高 级 套 接 字 编程 部 分 有 若干 章 也 使 用 了 IP 和 ICMP 的 某 些 特性 ， 例 
如 IP 选 项 (第 27 章 ) 以 及 ping 和 traceroute 程 序 〈 第 28 章 ) 。 








A.2 IPv4 首 部 


PP 了 层 提供 无 连接 不 可 靠 的 数据 报 递送 服务 (RFC 791 [Postel 
]) 。 它 会 尽 最 大 努力 把 卫 数 据 报 递送 到 指定 的 目的 地 ， 然 而 并 不 保证 





它们 一 定 到 达 ， 也 不 保证 它们 的 到 达 顺 序 与 发 送 顺序 一 致 ， 还 不 保证 每 
个 了 数据 报 只 到 达 一 次 。 任 何 期 望 的 可 靠 性 〈 即 无 差错 按 顺 序 不 重复 地 
递送 用 户 数据 ) 必须 由 上 层 提 供 文 持 。 对 于 TCP CBKSCTP) 应 用 程序 
而 言 ， 这 由 TCP (或 SCTP)〉 本 里 完成 。 对 于 UDP 应 用 程序 而 言 ， 这 得 
a i dpe 
lI e 


IP 层 最 重要 的 功能 之 一 是 路 由 (routing) 。 每 个 卫 数 据 报 包 含 一 个 
源 地 址 和 一 个 目的 地 址 。 图 A-1 展 示 了 IPv4 数 据 报 首部 的 格式 。 
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图 A-1 IPv4 首 部 格式 





e 4 位 版 本 (version) 字段 值 为 4。 这 是 自 20 世 纪 80 年 代 早 期 以 来 一 直 
TEE AA IPH AS 


首部 长 度 (header length) 字段 是 包括 任何 选项 在 内 的 整个 IP 首 部 
的 32 位 字 长 度 。 这 个 4 位 字段 的 最 大 取 值 为 15， 因 而 IP 首 部 的 最 大 
长 度 为 60 个 字 节 。 扣 除 首 部 固定 部 分 所 占据 的 20 字 市 外 ， 它 最 多 允 
许 40 个 字 节 的 选项 。 

历史 性 的 8 位 服务 类 型 (type-of-service, TOS) 字段 (RFC 

1349 [Almquist 1992] ) 已 被 蔡 换 为 两 个 字段 6 位 区 分 服务 码 点 
CDifferentiated Services Code Point, DSCP, RFC 2474 [Nichols et 
al. 1998] ) 和 2 位 显 式 拥塞 通知 (Explicit Congestion Notification, 
ECN, RFC 3168 [Ramakrishnan, Floyd, and Black 2001] ) 。 我 们 
可 以 使 用 ITP_Tos 套 接 字 选 项 设置 该 字段 〈7.6 节 ) , BRAT HE 
新 为 了 实施 Diffserv 策 略 或 实现 ECN 而 设置 的 值 。 

16 位 总 长 度 Ctotal length) 字段 是 包括 IPv4 首 部 在 内 的 整个 IP 数 据 
报 的 字 节 长 度 。 数 据 报 中 的 数据 量 就 是 本 字段 减 挥 4 乘 以 首部 长 度 
(回顾 一 下 ， 首 部 长 度 都 是 32 位 或 4 字 节 的 整数 倍 ) 。 本 字段 是 必 
需 的 ， 因 为 有 些 数据 链 路 要 求 把 帧 执 补 成 某 个 最 小 长 度 〈 例 如 以 太 
网 ) ， 因 而 有 效 卫 数据 报 的 大 小 有 可 能 小 于 数据 链 路 的 最 小 长 度 。 
16 位 标识 〈identification) 字段 由 了 模块 为 每 个 IP 数 据 报 设置 成 不 同 
的 值 ， 用 于 分 片 和 重组 〈2.11 节 ) 。 该 字段 必须 就 源 IPv4 地 址 、 目 
的 IPv4 地 址 和 协议 这 三 个 字段 至 少 在 数据 报 的 网 络 存活 期 岂 唯 一 标 
识 每 个 IP 数 据 报 。 如 果 分 组 不 会 被 分 片 〈 但 如 设置 了 DF 位 ) 3 
么 就 不 需 设置 此 字段 。 

















869—870 


DF (表示 don*t fragment， 不 要 分 片 ) fiz. MF 表示 more 
fragments， 还 有 片段 位 和 13 位 片段 偏 移 (fragment offset) 字段 
也 用 于 分 片 和 重组 。DF 位 还 用 于 路 径 MTU 发 现 (2.117) 。 

8 位 存活 时 间 Ctime-to-live, TTL) 字段 由 本 IP 数 据 报 的 发 送 者 设 
置 ， 并 由 转发 它 的 每 个 路 由 器 递减 〈 即 减 去 1) 。 当 被 减 到 0 时 ， 相 
应 路 由 器 就 丢弃 该 数据 报 。 任 何人 P 数 据 报 的 生命 期 限定 为 最 多 255 
跳 。 本 字段 的 常用 默认 值 为 64， 不 过 我 们 可 以 使 用 套 接 字 选 

项 IP_TTL 和 IP_MULTICAST_TTL 〈7.6 节 ) 查询 和 修改 这 个 默认 值 。 

8 位 协议 CprotocoD 字段 指定 包含 在 本 IP 数 据 报 中 的 数据 类 型 。 它 
的 典型 值 有 1 (ICMPv4) 、2 (IGMPv4) 、6 (TCP) 和 

17 (UDP) 。 这 些 值 由 IANA 的 “Protocol Numbers” 注 册 处 LIANA ] 
登记 并 提供 查询 。 








e 16 位 首部 检验 和 (header checksum) 字段 只 对 IP 首 部 〈 包 括 任何 选 
项 ) 进行 计算 。 其 算法 是 标准 的 网 际 网 校 验 和 算法 ， 即 简单 的 16 位 
反 码 加 法 〈16-bit ones-complement addition? ， 如 图 28-15 所 示 。 

。 源 IPv4 地 址 (source IPv4 address) 和 目的 IPv4 地 址 (destination 
IPv4 address) 都 是 32 位 字段 。 

。 选项 (options) 字段 我 们 已 在 27.2 节 叙述 过 ， 并 在 27.3 节 给 出 了 一 
个 使 用 IPv4 源 路 径 选 项 的 例子 。 


A3 IPv6 首 部 


图 A-2 给 出 了 IPv6 首 部 的 格式 (CRFC 2460 [Deering and Hinden 
1998] ) 。 
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图 A-2 IPv6 首 部 格式 





4 位 版 本 (version) 字段 值 为 6。 由 于 本 字段 占据 首部 第 一 个 字 节 的 
前 4 位 〈 束 如 图 A-1 给 出 的 IPv4 版 本 字段 ) ， 因 此 它 允 许 文 持 这 两 个 
版 本 的 接收 IP 协 议 栈 区 分 它们 。 不 过 由 于 IPvV4 和 IPV6 因 互 不 兼容 而 
被 视 为 不 同 的 协议 族 ， 封 装 IPv4 或 IPv6 分 组 的 数据 链 路 帧 〈 璧 如 说 
ELK edit) 就 已 经 使 用 不 同 的 协议 族 字段 值 区 分 了 它们 ， 接 收 数 据 
链 路 层 据 此 把 它们 递送 到 分 离 的 IPv4 模 块 或 ITPv6 模 块 。 

20 世 纪 90 年 代 初 期 开发 ITPv6 时 ， 在 赋予 它 6 这 个 版 本 号 之 前 ， 该 协 
议 称 为 IPng， 表 示 “ 下 一 代 IP CIP next generation) ”。 你 可 能 仍然 会 
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历史 性 的 8 位 流通 类 别 (traffic class) 字段 (RFC 2460) 现 已 被 蔡 
换 为 两 个 字段 : 6 位 区 分 服务 码 点 (Differentiated Services Code 
Point, DSCP, RFC 2474 [Nichols et al. 1998] ) 和 2 位 显 式 拥塞 通 
Al (Explicit Congestion Notification, ECN, RFC 
3168 [Ramakrishnan, Floyd, and Black 2001] ) 。 我 们 可 以 使 
用 IPVv6_TCcLASS 套 接 字 选项 设置 该 字段 (22.8 节 ) ， 虽 然 内 核 可 能 履 
盖 为 了 实施 Diffserv 策 略 或 实现 ECN 所 设置 的 值 。 

20 位 流标 签 Cflow label) 字段 可 以 由 应 用 进程 或 内 核 为 某 个 给 定 的 
套 接 字 选取 ， 应 用 于 通过 该 套 接 字 发 送 的 任何 IPv6 数 据 报 。 所 谓 的 
Wü Clow) 指 的 是 从 某 个 特定 源头 到 某 个 特定 目的 地 的 一 个 分 组 序 
列 ， 而 且 该 源头 期 望 中 间 的 路 由 器 对 这 些 分 组 进行 特殊 处 理 。 对 于 
一 个 给 定 的 流 ， 其 流标 签 一 经 源头 选 定 就 不 再 改变 ， 也 就 是 说 中 间 
路 由 器 不 能 像 对 待 DSCP 和 ECN 字 上 段 那样 重新 设置 本 字段 。 值 为 0 的 
流标 签 〈 默 认 设置 ) 标识 并 不 属于 任何 一 个 流 的 分 组 。 

[ Rajahalme et al. 2003 ] 讲解 了 本 字段 沿 处 于 试验 之 中 的 用 途 。 
流标 签 的 访问 接口 尚未 完全 定义 。sockaddr_in6 套 接 字 地 址 结构 的 
sin6 flowinfo 成 员 〈 几 3-4) 原初 是 为 留待 他 用 所 保留 的 。 有 些 系 
统 直接 将 sin6_flowinfo 的 低 28 位 复制 到 IPv6 分 组 首部 中 ， 来 覆盖 
DSCP 和 ECN 字 段 。 
16piisin KE (payload length) 字段 是 40 字 节 IPv6 首 部 之 后 所 有 内 
容 的 字 节 长 度 〈 可 能 出 现 的 扩展 首部 也 计算 在 内 ， 因 此 并 非 真 正 的 
净 荷 即 所 承载 上 层 协 议 数据 单元 的 长 度 ) 。 本 字段 与 IPv4 总 长 度 字 
段 的 区 别 在 于 后 者 把 IPv4 首 部 也 计算 在 内 。 本 字段 值 为 0 表示 实际 
长 度 超过 16 位 字段 的 表示 范围 《可见 不 存在 只 含有 IPv6 首 部 的 IPv6 
数据 报 ) ， 于 是 存放 在 一 个 特大 净 荷 选项 中 〈 图 27-9) 。 这 样 的 数 
据 报 称 为 特大 报 (jumbogram) 。 

8 位 下 一 个 首部 (next header) 字段 类 似 于 IPv4 的 协议 字段 。 事 实 上 
如 果 上 层 协议 基本 上 无 变化 ，IPv6 和 IPv4 的 这 两 个 字段 就 使 用 相同 
的 值 ， 例 如 6 代表 TCP，17 代 表 UDP。 从 ICMPv4 到 ICMPv6 的 变化 
却 比 较 多 ， 以 至 于 后 者 被 赋 给 一 个 新 值 58。 

一 个 IPv6 数 据 报 可 以 在 其 40 字 节 的 IPv6 首 部 之 后 跟 以 多 个 首部 。 这 
就 是 之 所 以 称 本 字段 为 “下 一 个 首部 ”而 非 “ 协 议 ” 的 原因 。 

8 位 跳 限 ‘hop limit) 字段 类 似 于 IPv4 的 TTL 字 段 。 一 个 IPv6 分 组 的 
跳 限 字段 值 由 转发 它 的 每 个 路 由 器 递减 〈 即 减 去 1) ， 如 果 某 个 路 
由 器 把 该 字段 值 减 成 0， 它 就 丢弃 该 分 组 。 我 们 可 以 使 用 套 接 字 选 


项 IPV6_UNICAST_HOPS 和 IPV6_MULTICAST_HOPS 设 置 与 获取 本 字段 的 






































默认 值 〈7.8 节 和 21.6 节 ) ， 也 可 以 使 用 IPv6_HoPLIMIT 套 接 字 选项 
设置 本 字段 的 当前 值 ， 并 使 用 IPv6_RECVHOPLIMIT 套 接 字 选 项 获取 接 
收 数 据 报 的 本 字段 值 。 





871—872 


IPv4 早 期 规范 和 要求 路 由 器 把 所 转发 ITPv4 分 组 的 TITL 字 段 值 或 者 减 去 
1， 或 者 减 去 路 由 右 存 储 该 分 组 的 秒 数 ， 具 体 取决 于 哪个 值 比较 大 。 其 
名 称 “ 存 活 时 间 ” 就 是 如 此 而 来 。 然 而 在 现实 中 该 字段 值 总 是 减 去 1。 
IPv6 要 求 它 的 跳 限 字段 总 是 减 去 1， 因 而 换 了 个 不 同 于 IPv4 的 名 称 。 








e 源 IPv6 地 址 (source IPv6 address) 和 目的 IPv6 地 址 (destination 
IPv6 address) 都 是 128 位 字段 。 


从 IPv4 到 IPv6 的 最 显著 变化 自然 是 IPv6 采 用 更 大 的 地 址 字段 。 另 一 
个 变化 是 简化 IPv6 首 部 ， 因 为 首部 越 简单 ， 路 由 器 处 理 起 来 也 更 快 。 这 
两 种 首部 之 间 的 其 他 变化 还 有 以 下 几 点 。 





。IPv6 没 有 首部 长 度 字 段 ， 因 为 IPv6 首 部 没有 选项 字段 。 固 定 为 40 字 
节 的 IPv6 首 部 之 后 可 跟 以 任意 种 类 和 数目 的 扩展 首部 ， 不 过 它们 都 
有 各 自 的 长 度 字段 。 

如 果 首 部 本 身 64 位 对 齐 ， 那 两 个 IPv6 地 址 字段 也 在 64 位 边界 对 齐 。 
这 样 可 以 加 快 在 64 位 体系 结构 上 的 处 理 。 而 IPv4 地 址 即使 在 64 位 对 
齐 的 IPv4 首 部 中 也 只 是 32 位 对 齐 的 。 

IPV6 首 部 没有 用 于 分 片 的 字段 ， 因 为 IPv6 男 有 一 个 独立 的 分 片 首部 
用 于 该 目的 。 做 出 如 此 设计 决策 是 因为 分 片 属于 异常 情况 ， 而 异常 
情况 不 应 该 减 慢 正常 处 理 。 

IPv6 首 部 没有 其 自身 的 校 验 和 字段 。 这 是 因为 所 有 上 层 协 议 
CTCP、UDP 和 ICMPv6) 数据 单元 都 有 各 目的 校 验 和 字段 ， 其 校 
验 范 围 包 括 上 层 协 议 首 部 、 上 层 协 议 数据 及 IPv6 首 部 的 如 下 字段 : 
IPV6 源 地 址 、IPv6 目 的 地 址 、 净 从 长 度 和 下 一 个 首部 。 通 过 从 IPV6 
首部 省 去 校 验 和 字段 ， 转 发 IPv6 分 组 的 路 由 器 不 必 在 修改 跳 限 字段 
值 之 后 重新 计算 首部 校 验 和 。 这 里 加 快 路 由 器 的 转发 速度 再 次 成 为 
设计 的 关键 点 。 


我 们 另外 指出 从 IPv4 到 IPv6 的 以 下 重要 变更 ， 以 防 你 还 是 首次 接触 




















IPv6. 


IPv6 没 有 广播 〈 第 20 章 ) 。 对 于 IPv4 是 可 选 的 多 播 〈 第 21 章 ) 却 是 
IPv6 一 个 组 成 部 分 。 回 子 网 中 所 有 系统 发 送 数据 的 任务 是 由 全 节点 
多 播 组 处 理 的 。 

IPv6 路 由 器 不 对 所 转发 的 分 组 执行 分 片 。 如 果 不 经 分 片 无 法 转发 某 
个 分 组 ， 路 由 器 就 丢弃 该 分 组 ， 同 时 向 其 源头 发 送 一 个 ICMPvV6 错 
Oc aa 
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IPv6 要 求 支持 路 径 MTU 发 现 功能 (2.117) 。 从 技术 上 说 这 种 支持 
是 可 选 的 ， 诸 如 上 自 举 引导 加 载 器 等 程序 中 的 最 小 实现 就 可 以 省 略 这 
种 支持 ， 然 而 如 果 某 个 节点 没有 实现 这 个 功能 ， 它 就 不 能 发 送 超过 
IPv6 最 小 链 路 MTU 〈1280 字 节 ) 的 数据 报 。22.9 节 讲解 了 控制 路 径 
MTU 发 现行 为 的 套 接 字 选项 。 

IPv6 要 求 支 持 认证 和 安全 选项 。 这 些 选 项 出 现在 固定 首部 之 后 。 











A.4 IPv4 地 址 


32 位 长 度 的 IPv4 地 址 通常 书写 成 以 点 号 分 隔 的 4 个 十 进 制 数 ， 称 为 
点 分 十 进 制 数 记 法 (dotted-decimal notation) ， 其 中 每 个 十 进 制 数 代表 
32 位 地 址 4 个 字 节 中 的 某 一 个 。 这 4 个 十 进 制 数 的 第 一 个 标识 地 址 类 别 ， 
如 图 A-3 所 示 。 历 史上 IPv4 地 址 兽 被 划分 成 5 类 ， 其 中 3 类 用 作 功 能 等 同 
的 单 播 地 址 ， 并 且 从 20 世 纪 90 年 代 中 期 开始 随 痢 无 类 Classless) 地 址 
概念 的 提出 而 被 认为 不 再 存在 类 别 ， 因 而 作为 单个 范围 展示 。 


单 播 A. Kk € 0.0.0.031[223.255.255.255 


$ ii 224.0.0.041/239.255.255.255 
了 


试验 用 240.0.0.0 #1/247.255.255.255 





图 A-3 ”IPv4 地 址 5 个 类 别 的 范围 


无 论 在 何 时 谈 到 IPv4 网 络 或 子 网 地 址 ， 所 说 的 都 是 一 个 32 位 网 络 地 
址 和 一 个 相应 的 32 位 掩 码 。 撼 码 中 值 为 1 的 位 涵盖 网 络 地 址 部 分 ， 值 为 0 
的 位 涵盖 主机 地 址 部 分 。 既 然 掩 码 中 值 为 1 的 位 总 是 从 最 左 位 向 右 连 续 
排列 ， 值 为 0 的 位 总 是 从 最 右 位 向 左 连续 排列 ， 因 此 地 址 掩 码 也 可 以 使 
用 表示 从 最 左 位 向 右 排列 的 值 为 1 的 连续 位 数 的 前 缀 长 度 prefix 
length〉 指 定 。 举 例 来 说 ， 掩 码 是 255.255.255.0， 则 前 缀 长 度 为 24。 这 
些 IPVv4 地 址 被 认为 是 无 类 的 ， 之 所 以 这 么 称呼 ， 是 因为 现在 掩 码 是 显 式 
指定 而 非 由 地 址 类 型 暗 指 的 。IPv4 网 络 地 址 通常 书写 成 一 个 点 分 十 进 制 
数 串 ， 后 跟 一 个 斜 杜 ， 再 跟 以 前 缀 长度。 图 1-16 展 示 了 这 样 的 例子 。 


没有 一 个 RFC 排 除非 连续 子 网 掩 码 的 合法 性 ， 不 过 这 种 掩 码 容易 造 
成 混 靖 ， 也 没 法 以 前 组 记 法 表示 。 因 特 网 域 间 路 由 协议 BGP4 不 能 表示 
非 连续 子 网 掩 码 。IPv6 同 样 要 求 所 有 地 址 掩 码 从 最 左 位 开始 保持 连续 。 


使 用 无 类 地 址 要 求 无 类 路 由 ， 它 通常 称 为 无 类 域 则 路 由 Cclassless 
interdomain routing, CIDR) (RFC 1519 [Fuller et al. 1993] ) 。 使 用 
CIDR 的 目的 在 于 减少 因特网 主干 路 由 表 的 大 小 ， 延 绥 IPv4 地 址 耗 尽 的 











速率 。CIDR 中 每 个 路 径 必 须 伴 以 一 个 掩 码 或 前 缀 长 度 。 地 址 类 型 不 再 
暗含 掩 码 。TCPv1 的 10.8 节 更 详细 地 讨论 CIDR。 
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A.4.1 子 网 地 址 


IPv4 地 址 通常 划分 子 网 (RFC 950 [Mogul and Postel 1985] ) . 3X 
么 做 增加 了 另外 一 级 地 址 层次 : 


e 网 络 ID (分 配给 网 点 ) ; 
e FID 〈 由 网 点 选择 ) ; 
e 主机 ID (由 网 点 选择 ) 。 


网 络 ID 和 子 网 ID 之 间 的 界线 由 所 分 配 网 络 地 址 的 前 绥 长 度 确定 ， 而 
这 个 前 绥 长 度 通 稼 由 相应 组 织 机 构 的 ISP 赋 子 。 然 而 子 网 ID 和 主机 ID 之 
间 的 界线 却 由 网 点 选择 。 某 个 给 定子 网 上 所 有 主机 都 共享 同一 个 子 网 掩 
fij (subnet mask) ， 它 指定 子 网 人 D 和 主机 ID 之 间 的 界线 。 子 网 掩 码 中 值 
为 1 的 位 涵盖 网 络 ID 和 子 网 ID， 值 为 0 的 位 则 涵盖 主机 ID。 


作为 一 个 例子 ， 考 虑 某 个 网 点 被 它 的 ISP 赋 予 一 个 私 用 网 络 地 址 
192.168.42.0/24。 这 个 网 点 随后 把 剩余 8 位 划分 成 3 位 子 网 ID 和 5 位 主机 
ID， 如 图 A-4 所 示 。 


ur sy SI: PTT UTAT 
SHAS HEE NI IFR BN 





地 站 ; | 
ieee 1i Dl 三 二 二 二 000200 


Nr md. 
ay hh i TIE -ja i 
图 A-4 24 位 网 络 ID 伴 以 3 位 子 网 ID 和 5 位 主机 ID 


图 A-5 列 出 了 如 此 划分 形成 的 所 有 子 网 。 马 
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192.168.42.0/27 
192.168.42.32/27 
192.168.42.64/27 
192.168.42.96/27 
192.168.42.128/27 
192.168.42.160/27 
192.168.42.192/27 
192.168.42.224/27 


e 





l 
2 
3 
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6 
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图 A-5 3 位 子 网 ID 和 5 位 主机 ID 的 子 网 列表 
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如 此 划分 形成 6 至 8 个 子 网 ( 子 网 ID 为 1~6 或 0~7) ， 每 个 子 网 支持 30 
个 主机 “〈 主 机 ID 为 1~30) 。RFC 950 建 议 不 要 使 用 子 网 ID 各 位 全 为 0 或 
全 为 1 的 那 两 个 子 网 〈 本 例子 为 子 网 ID 分 别 为 0 和 7 的 子 网 ) ， 不 过 如 今 
大 多 数 系 统 文 持 这 两 种 格式 的 子 网 ID。 主机 ID 各 位 全 为 1 的 地 址 (本 例 
子 的 主机 ID 为 31) 是 相应 子 网 的 定 回 广 播 地 址 〈20.2 节 ) 。 主 机 ID 各 位 
全 为 0 的 地 址 用 于 标识 相应 子 网 ， 同时 避免 与 把 0 值 主机 ID 用 作 子 网 定向 
广播 地 址 的 较 旧 系统 发 生 冲 突 。 然 而 如 果 能 够 保 准 子 网 上 不 存在 这 样 的 
系统 ， 那 么 使 用 0 值 主 机 ID 标识 一 个 主机 也 是 可 能 的 。 总 的 来 讲 ， 网 络 
程序 无 需 关 心 子 网 或 主机 ID 的 指定 ， 而 应 该 将 IP 地 址 视 作 不 透明 的 值 。 


A.4.2 环 回 地 址 


按照 约定 ， 地 址 127.0.0.1 赋 了 予 环 回 接口 。 任 何 发 送 到 这 个 IP 地 址 的 
分 组 在 内 部 被 环 送 回来 作为 卫 模 块 的 输入 ， 因 而 这 些 分 组 根本 不 会 出 现 
在 网 络 上 。 我 们 在 同一 个 主机 上 测试 客户 和 服务 器 程序 时 经 常 使 用 该 地 
址 。 该 地 址 通常 为 人 所 知 的 名 字 是 INADDR_LOOPBACK。 


网 络 127.0.0.0/8 上 任何 地 址 都 可 以 赋予 环 回 接口 ， 但 是 127.0.0.1 是 
其 中 最 常用 的 ， 往 往 由 系统 自动 配置 。 








A.4.3 未 指明 地 址 


所 有 32 位 均 为 0 的 地 址 是 IPv4 的 未 指明 地 址 Cunspecified 
address) 。 这 个 IP 地 址 只 能 作为 源 地 址 出 现在 IPv4 分 组 中 ， 而 有 旦 是 在 其 
发 送 主 机 处 于 获悉 自身 IP 地 址 之 前 的 自 举 引导 过 程 期 间 。 在 套 接 字 API 
中 该 地 址 称 为 通 配 地 址 ， 其 通常 为 人 所 知 的 名 字 是 INADDR_ANY。 在 套 接 
字 API 中 绑 定 该 地 址 《例如 为 了 监听 某 套 接 字 ) 表示 会 接受 目的 地 为 任 
何 节点 的 IPv4 地 址 的 客户 连接 。 


A.4.4 私 用 地 址 


RFC 1918 [ Rekhter et al. 1996 | 留置 了 知 干 段 地 址 范围 供 “ 私 用 网 际 
网 ”(private internets) 使 用 ， 这 些 网 络 不 能 直接 接 入 到 公用 因特网 中 ， 
除非 中 间 介 以 NAT 或 代理 设备 。 这 些 地 址 范围 如 图 A-6 所 示 。 














Hah xx H ] 
16 777 216 10/8 10.0.0.0$110.255.255.255 
1 048 576 172.15/12 172.16.0.033,172.31.255.255 
65 536 192.168/16 192.168. 021192 168.255.255 


KlA-6 A4HIPv4db AES E] 
这 些 地 址 绝 不 能 出 现在 因特网 上 ， 它 们 是 为 私 用 网 络 保留 的 。 许 多 
小 规模 网 点 结合 NAT 技 术 使 用 这 些 私 用 地 址 ， 在 一 个 或 多 个 因特网 上 可 
用 的 公用 IP 地 址 和 所 用 私 用 地 址 之 间 进 行 地 址 转换 。 
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A.4.5 多 答 与 地 址 别名 


24a PL (multihomed host) 的 传统 定义 是 具有 多 个 接口 的 主机 : 
例如 两 个 以 太 网 链 路 或 者 一 个 以 太 网 链 路 加 一 个 点 到 点 链 路 。 每 个 接口 
必须 有 一 个 唯一 的 IPv4 地 址 。 计 量 一 个 主机 的 接口 数 是 否 超过 一 个 以 确 
ECE SIN, AREA AEA} 


BH aie re oe HR, AEE BAAR Se FP REA 053 — 














MEA. PM T8 EVAN — se eke REER. SESE 
上 上 一 个 多 宿主 机 不 应 该 仅仅 因为 拥有 多 个 接口 而 自我 认定 是 一 个 路 由 
器 ;除非 已 被 配置 成 作为 路 由 器 《典型 手段 是 由 系统 管理 员 开 局 茶 个 配 
置 选项 ) ， 人 否则 它 绝 不 能 扮演 这 个 角色 。 


然而 多 箱 Cmultihoming) 这 个 说 法 现 已 变 得 更 为 一 般 化 ， 包 括 两 种 
不 同情 形 (RFC 1122 [Braden 1989] 的 节 ) 。 





。 拥有 多 个 接口 的 主机 是 多 箱 的， 每 个 接口 必须 有 各 自 的 人 P 地 址 ， 不 
过 未 指定 网 络 地 址 的 ‘unnumbered) 接口 允许 出 现在 点 到 点 链 路 
上 。 这 是 传统 的 定义 。 

较 新 的 主机 具备 把 多 个 下地 址 赋予 单个 给 定 物理 接口 的 能 力 。 除 第 
一 个 IP 地 址 即 主 地 址 外 的 每 个 额外 IP 地 址 称 为 该 接口 的 一 个 别名 
Calias) 地址 或 逻辑 接口 (logical interface) 地 址 。 通 常 别名 地 址 
和 主 地 址 共享 同一 个 子 网 地 址 ， 只 是 主机 ID 不 同 而 已 。 不 过 别名 地 
址 也 可 能 具有 完全 不 同 于 主 地 址 的 网 络 地 址 或 子 网 地 址 。 我 们 在 
17.6 市 给 出 了 一 个 别名 地 址 的 例子 。 


可 见 多 宿主 机 的 定义 是 具有 多 个 IP 层 可 见 接口 (扣除 回馈 接口 ) 的 
主机 ， 人 至 于 这 些 接口 是 物理 的 还 是 逻辑 的 则 不 必 关 心 。 


给 予 网 络 负荷 极 高 的 茶 个 服务 器 主机 到 同一 个 以 太 网 交换 机 的 多 个 
物理 连接 ， 并 把 这 些 连接 汇聚 成 一 个 更 高 带 锅 的 旬 辑 连接 ， 这 种 做 法 并 
不 鲜 见 。 这 样 的 主机 不 能 因为 拥有 多 个 物理 接口 而 被 认为 是 多 窒 的 ， 因 
为 在 IP 层 看 来 它们 是 单个 逻辑 接口 。 


多 答 也 用 于 另 一 个 上 下 文中 。 有 多 个 连接 通达 因特网 的 网 络 也 称 为 
多 特 的 。 举 例 来 说 ， 有 些 网 点 有 两 个 而 非 一 个 通达 因特网 的 连接 ， 以 此 
提供 因特网 接 入 的 备份 能 力 。SCTP 传 输 协议 能 从 多 重 连 接 (通过 联系 
TAE mika. 

















A.5 IPv6 地 址 


IPv6 地 址 有 128 人 位， 通常 书写 成 以 冒号 分 隔 的 8 个 16 位 值 的 十 六 进 制 
数 。IPv6 地 址 的 128 位 地 址 的 高 序 位 隐 含 地 址 类 型 (RFC 3513 [Hinden 
and p 2003] ) 。 图 A-7 给 出 了 高 序 位 不 同 取 值 与 所 隐 舍 地 址 类 型 
的 关系 。 
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未 分 配 不 还 用 2602 0030 .. 0000 cond (128^*) | RFC 3513 
环 回 地 址 不 运用 2602 0020 .. O500 2001 (128^*) | RFC 3513 
TR di Hh 200 ae 3513 
全 球 其 三 NSAP 的 她 址 任意 大 小 Ti00200 RTC 1888 


Vi) SS e T) pup seu n RFC 3587 
^ pp qup M 3- Cx Em. RFC 3513 


9E 78 ELT FE Ha ae 
[e ut Fa} pS de a Lat 


4246 Hh TH 111:-11 RFC 3413 





图 A-7 IPv6 地 址 中 高 序 位 的 含义 








这 些 高 序 位 称 为 格式 前 级 (format prefix) 。 其 中 高 序 8 位 是 
00000000 的 保留 地 址 范围 中 已 经 定义 未 指明 地 址 〈unspecified 
address) 、 环 回 地 址 (loopback address) 和 艇 入 IPv4 地 址 的 IPv6 地 址 ， 
后 者 包括 IPv4 兼 容 的 IPv6 地 址 (IPv4-compatible IPv6 address) 和 IPv4 映 
射 的 IPv6 地 址 (IPv4-mapped IPv6 address) ， 有 具体 稍 后 讨论 。 


A.5.1 全 球 单 播 地 址 


按照 RFC 3513， 未 指明 地 址 、 环 回 地 址 、 链 接 局 部 单 播 地 址 Cink- 
local unicast address) 、 网 点 局 部 单 播 地 址 〈site-local unicast address) 
和 多 播 地 址 以 外 的 所 有 IPv6 地 址 都 是 全 球 〈 或 全 局 ) 单 播 地 址 (global 
unicast address) ， 不 过 当前 全 球 单 播 地 址 空间 的 分 配 限 制 在 以 oo1 打 头 
的 地 址 范围 ， 其 余地 址 空间 留待 将 来 分 配 。 全 球 单 播 地 址 的 一 般 格式 是 
可 汇聚 的 ， 从 最 左 位 开始 往 右 包含 以 下 各 个 字段 ， 并 如 图 A-8 所 示 : 


e 全 球 路 由 前 级 (nit) ; 
。 子 网 ID 〈64-n 位 ) ; 
e 接口 ID 〈64 位 ) 。 





图 A-8 ”IPv6 全 球 单 播 地 址 一 般 格式 
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全 球 路 由 前 级 是 赋予 某 个 网 点 的 网 络 标识 (通常 具有 层次 结构 》， 

















子 网 D 是 该 网 点 内 某 个 链 路 的 标识 ， 接 口 人 D 是 该 链 路 上 某 个 接口 的 标 

识 。 以 ooo 打 头 地 址 范围 之 外 的 所 有 全 球 单 播 地 址 都 有 一 个 64 位 的 接口 

ID 字段 。 接 口 ID 必须 按照 经 修正 的 IEEE EUI-64 格 式 构造 。IEEE EUI- 
64 [IEEE 1997 ] 是 赋予 大 多 数 LAN 接 口 卡 的 48 位 IEEE 802 MAC 地 址 的 
一 个 超 集 ， 修 正 它 们 的 目的 仅仅 是 略微 方便 系统 管理 员 在 人 硬件 接口 地 址 
不 可 得 情况 下 《例如 点 到 点 链 路 或 隧道 端点 ) 手工 配置 非 全 球 ID 而 已 。 
要 是 可 能 的 话 ，IPv6 应 该 基于 一 个 接口 的 硬件 MAC 地 址 自动 赋予 它 一 个 
接口 ID 。 构 造 基 于 经 修正 EUL64 的 接口 了 的 细节 详 见 RFC 3513 [Hinden 
and Deering 2003] 附录 A。 注 意 ， 以 000 打 头 地 址 范围 之 内 的 全 球 单 播 
地 址 (例如 IPv4 兼 容 的 IPv6 地 址 和 IPv4 映 射 的 IPv6 地 址 ) 没有 接口 ID 字 
段 在 大 小 或 结构 上 的 如 此 限制 。 


既然 一 个 经 修正 IEEE ”EUI-64 可 以 是 某 个 给 定 接口 的 全 球 唯一 标 
识 ， 而 一 个 接口 也 可 以 标识 一 个 用 户 ， 经 修正 的 IEEE ”EUI-64 格 式 于 是 
唤起 所 谓 的 隐私 性 考虑 。 举 例 来 说 ， 通 过 追踪 某 个 给 定 用 户 所 携带 的 笔 
记 本 电脑 产生 的 IPv6 地 址 中 髋 入 的 EUI-64 值 ， 该 用 户 的 行为 和 运动 有 可 
能 被 掌握 。RFC 3041 [Narten and Draves 2001] 讲解 了 接口 ID 的 隐私 性 
扩展 ， 它 能 够 每 天 数 次 变更 接口 ID 以 避免 暴露 隐私 。 


A.5.2 ”6bone 测 试 地 址 
6bone 是 一 个 用 于 早期 IPv6 协 议 测试 的 虚拟 网 络 (B.3 节 ) 。 以 61 打 








头 的 那 部 分 全 球 单 播 地 址 范围 开始 分 配 之 后 ，6bone 就 按照 使 用 其 中 某 
个 特殊 格式 的 原 定 计划 把 以 exsf 打 头 的 临时 性 6bone 地 址 更 换 成 了 以 
gx3ffe 打 头 的 永久 性 6bone 地 址 (RFC 2471 [Hinden, Fink, and Postel 
1998] ) ， 如 图 A-9 所 示 。 























图 A-9 用 于 6bone 的 IPv6 测 试 地 址 











6bone 地 址 的 高 序 两 字 节 是 ox3ffe。32 位 的 6bone 网 点 ID 由 6bone 行 
动 主席 (the chair of the6bone activity) 赋予 每 个 加 入 站 点 ， 意 在 体现 现 
实 环境 中 IPv6 地 址 如 何 分 配 。6bone 行 动 正 在 下 马 之 中 [Fink and Hinden 
2003] ， 因 为 IPv6 生 产 性 部 署 业 已 起 步 (2002 年 分 配 的 生产 性 地 址 量 超 
过 6bone 在 8 年 内 分 配 的 地 址 量 ) 。 子 网 ID 和 接口 ID 如 同 全 球 单 播 地 址 格 
式 ， 分 别 用 于 标识 子 网 和 接口 。 


我 们 在 11.2 节 展示 了 图 1-16 中 名 为 freebsd 的 主机 的 IPv6 地 址 
N3ffe:b80:8d:1:a00: 20ff:fea7:686b。 其 中 6bone 网 点 ID 
是 exgb8olf8d， 子 网 ID 是 ex1。 低 序 64 位 是 该 主机 以 太 网 卡 MAC 地 址 的 
经 修正 IEEE EUI-64 值 。 


A.5.3 IPv4 映 射 的 IPv6 地 址 


IPv4 映 射 的 IPv6 地 址 允许 在 因特网 癌 IPv6 过 渡 时 期 让 运行 在 同时 支 
持 IPv4 和 IPv6 的 主机 上 的 IPv6 应 用 进程 能 够 与 只 文 持 IPv4 的 主机 通信 。 
这 些 地 址 是 在 IPv6 应 用 进程 查询 某 个 只 有 IPv4 地 址 的 主机 的 IPv6 地 址 时 
由 DNS 解析 器 自动 创建 的 〈 图 11-8) 。 
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我 们 从 图 12-4 看 到 在 IPv6 套 接 字 上 使 用 这 种 类 型 的 地 址 导致 往 目 的 
地 IPv4 主 机 发 送 IPv4 数 据 报 。 这 些 地 址 并 不 保存 在 任何 DNS 数据 文件 
中 ， 它 们 是 由 解析 器 按 需 创建 的 。 


图 A-10 展 示 了 IPv4 映 射 的 IPv6 地 址 的 格式 。 低 序 32 位 含有 一 个 IPv4 
地 址 。 
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RJA-10 ”IPv4 映 射 的 IPv6 地 址 


书写 IPv6 地 址 时 ， 值 为 0 的 连续 数 串 可 以 简写 成 两 个 冒号 。 另 外 ， 
仍 在 其 中 的 IPv4 地 址 使 用 点 分 十 进 制 数 记 法 书写 。 举 例 来 说 ， 我 们 可 以 
把 IPv4 映 射 的 IPv6 地 址 o:6:6:9:9:FFFF:12.106.32.254 简 写 
成 ::FFFF:12.106.32.254。 


A.5.4 IPv4 兼 容 的 IPv6 地 址 


IPv4 兼 容 的 IPv6 地 址 也 用 于 从 IPv4 到 IPv6 的 过 渡 时 期 (RFC 
2893 [Gilligan and Nordmark 2000] ) 。 如 果 一 个 同时 支持 IPv4 和 IPv6 
的 主机 没有 邻居 IPv6 路 由 器 ， 那 么 它 的 系统 管理 员 应 该 创建 一 个 含 
IPv4 兼 容 的 IPv6 地 址 的 DNS AAAA 记 录 。 有 待 往 这 个 兼容 地 址 发 送 IPv6 
数据 报 的 任何 其 他 IPv6 主 机 将 先 为 这 些 IPv6 数 据 报 封装 一 个 IPv4 首 部 再 
发 送 ;， 这 种 发 送 方式 称 为 自动 隧道 Cautomatic tunnel) 。 然 而 IPv6 部 署 
上 的 一 些 考虑 却 削弱 了 这 种 地 址 的 如 此 用 途 。 我 们 将 在 B.3 节 讨论 隧 罕 
(tunneling) ， 并 在 网 B-2 中 给 出 在 一 个 IPv4 数 据 报 中 封装 一 个 IPv6 数 据 
报 的 例子 。 需 注意 的 是 ，6bone 上 的 每 个 隧道 都 是 经 配置 的 隧道 
(configured tunnel) ， 壁 如 说 由 系统 管理 员 通 过 某 个 司 动 文 件 预先 配 
置 ， 然 而 对 于 IPv4 兼 容 的 IPv6 地 址 ， 只 有 地 址 需要 手工 配置 (例如 作为 
"ULL ee er eee 
则 是 自动 的 。 


图 A-11 展 示 了 IPv4 兼 容 的 IPv6 地 址 的 格式 。 这 种 类 型 地 址 的 一 个 例 


子 是 ::12.106.32.254。 
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图 A-11 IPv4 兼 容 的 IPv6 地 址 


当 使 用 SIIT IPv4/IPv6 过 渡 机 制 (CRFC 2765 [Nordmark 2000] ) 
时 ，IPv4 兼 容 的 IPv6 地 址 也 可 以 作为 非 障 穿 IPv6 分 组 的 源 地 址 或 目的 地 
址 。 


A.5.5 环 回 地 址 


由 127 个 值 为 0 位 后 跟 单个 值 为 1 位 构成 的 IPv6 地 址 (书写 成 ::1) 是 
IPv6 的 环 回 地 址 。 在 套 接 字 API 中 ， 环 回 地 址 为 人 所 知 的 名 字 


是 in6addr_loopback 或 IN6ADDR_LOOPBACK_INIT。 
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A.5.6 未 指明 地 址 


所 有 128 位 值 均 为 0 的 IPv6 地 址 (书写 成 6: :6 或 干脆 ::) 是 IPv6 的 未 
指明 地 址 。 这 个 地 址 在 IPv6 分 组 中 只 能 作为 源 地 址 出 现 ， 而 且 是 在 其 发 
送 主机 处 于 获悉 自身 IP 地 址 之 前 的 自 举 引导 过 程 期 间 。 


在 套 接 字 API 中 该 地 址 称 为 通 配 地 址 ， 其 为 人 所 知 的 名 字 
是 in6addr_any 或 IN6ADDR_ ANY_INIT。 通 过 绑 定 该 地 址 的 套 接 字 发 送 
IPv6 分 组 时 ， 内 核 会 选择 一 个 本 地 地 址 作为 源 地 址 ， 除 非 尚 未 配置 任何 
本 地 地 址 〈 这 种 情况 下 就 以 未 指明 地 址 为 源 地 址 ) ; 通过 绑 定 这 个 地 址 
的 套 接 字 接收 IPv6 分 组 时 ， 内 核 把 没 法 递送 到 绑 定 更 明确 地 址 之 套 接 字 
的 接收 IPv6 分 组 递送 到 这 个 通 配 套 接 字 。 


A.5.7 链 路 局 部 地 址 
链 路 局 部 地 址 用 在 单个 链 路 上 ， 并 且 是 在 已 知 数据 报 不 会 被 转发 的 


前 提 下 。 这 种 地 址 的 使 用 例子 包括 自 举 引导 阶段 的 自动 地 址 配置 和 以 后 
的 邻居 发 现 (类似 IPv4 的 ARP) 。 图 A-12 展 示 了 这 些 地 址 的 格式 。 











一 一 
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图 A-12 ”IPv6 链 路 局 部 地 址 


这 些 地 址 总 是 以 oxfe86 打 头 。IPv6 路 由 器 绝 不 能 把 源 地 址 或 目的 地 
址 为 链 路 局 部 地 址 的 数据 报 转发 到 其 他 链 路 。 我 们 在 11.2 节 给 出 了 与 名 
字 aix_611 相 关联 的 链 路 局 部 地 址 。 


A.5.8 网 点 局 部 地 址 











在 本 书写 至 此 处 时 ，IETE 的 IPv6 工 作 组 已 决定 废弃 当前 形式 的 网 点 
局 部 地 址 。 即 将 来 临 的 蔡 换 品 使 用 还 是 不 使 用 原初 为 网 点 局 部 地 址 定义 
的 地 址 范围 《〈fece/1o) 尚未 知晓 。 这 种 地 址 本 打算 用 于 某 个 网 点 范围 
内 无 需 全 球 路 由 前 缀 的 寻 址 。 图 A-13 展 示 了 这 些 地 址 原初 定义 的 格式 。 








图 A-13 ”IPv6 网 点 局 部 地 址 


这 些 地 址 总 是 以 oxfece 开 头 。IPVv6 路 由 器 绝 不 能 把 源 地 址 或 目的 地 
址 为 网 点 局 部 地 址 的 数据 报 转发 到 所 在 网 点 以 外 。 
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A.6 ICMPv4ARIICMP v6: 网 际 网 控制 消 
I MX 


ICMP 是 任何 IPv4 或 ITPv6 实 现 都 必需 的 有 机 组 成 部 分 。 它 通常 用 于 
在 耻 节 点 〈 即 路 由 器 和 主机 ) 之 间 互 通 出错 消 息 或 信息 性 消息 ， 不 过 应 
用 程序 偶尔 也 会 使 用 它们 获取 信息 性 消息 或 出 错 消 筷 ， 例 如 ping 和 
traceroute 程 序 〈 第 28 音 ) 都 使 用 ICMP。 











ICMPv4 和 ICMPvV6 消 息 的 前 32 位 是 相同 的 ， 如 图 A-14 所 示 。RFC 
792 [Postel 1981bj」 讲 述 了 ICMPv4, RFC2463 [Conta and Deering 
1998] 讲述 了 ICMPv6。 


8 位 类 型 (type) 子 段 是 ICMPv4 或 ICMPv6 消 息 的 类 型 ， 有 些 类 型 有 
一 个 8 位 代码 (code) 字段 提供 额外 信息 。 校 验 和 (checksum) 字段 是 
标准 的 网 际 网 检验 和 ， 不 过 在 具体 校 验 哪些 字段 LICMPv4 和 ICMPv6 存 
在 差异 : ICMPv4 检 验 和 仅仅 校 验 ICMP 消 息 本 身 ，ICMPv6 检 验 和 的 校 
验 范 围 还 包括 IPv6 伪 首部 。 
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图 A-14 ICMPv4 和 ICMPv6 消 息 的 格式 





从 网 络 编程 角度 看 ， 我 们 需要 知道 哪些 ICMP 消 息 能 够 返 送 到 应 用 
进程 ， 哪 些 条 件 导 致 出 错 以 及 这 些 出 错 消 息 如 何 返 送 到 应 用 进程 。 图 A- 
15 列 出 了 所 有 的 ICMPv4 消 息 以 及 FreeBSD 对 它们 的 处 理 ， 图 A-16 则 列 
出 了 ICMPv6 消 息 。 倒 数 第 二 栏 指 出 导致 癌 发 送 主机 返 送 ICMP 出 错 消 息 
的 Pp 数据 报 发 送 操作 返回 给 调用 进程 的 errno 变 量 值 。 对 于 TCP 应 用 进 
程 ， 这 些 错 误 只 是 在 TCP 最 终 放 弃 重 传 尝 试 时 才 返 回 。 对 于 使 用 已 连接 
套 接 字 的 UDP 应 用 进程 ， 这 些 错误 由 下 次 发 送 或 接手 操作 人 返回， 但 在 使 











用 已 连接 套 接 字 时 是 个 例外 《如 8.9 节 所 述 ) 
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图 A-15 FreeBSD 对 ICMPv4 消 息 类 型 的 处 理 
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图 A-16 ICMPv6 消 息 


其 中 端口 不 可 达 《〈 对 于 ICMPv4 类 型 为 3 代码 为 3， 对 于 ICMPv6 类 型 
为 1 代码 为 4) 仅 用 于 自身 无 法 通告 对 端 某 个 端口 上 无 进程 在 监听 的 传输 
协议 。TCP 为 此 发 送 RST 分 节 ， 因 而 不 需要 这 个 ICMP 出 错 消 息 。 作 为 路 
Hara (RUF AA) 的 系统 忽略 重 定 同 〈( 对 于 ICMPvV4 类 型 为 5， 对 
于 ICMPV6 类 型 为 137) 。 


记号 “用 户 进程 意味 着 内 核 不 处 理 这 样 的 消息 ， 它 们 由 打开 原始 套 
接 字 的 用 户 进程 处 理 。 我 们 还 得 注意 不 同 的 实现 对 于 特定 的 消息 可 能 
不 同 的 处 理 。 举 例 来 说 ， 尽 管 Unix 系 统 通常 在 用 户 进程 中 处 理 路 由 器 征 














求 与 路 由 器 通告 ， 其 他 实现 却 有 可 能 在 内 核 中 处 理 这 些 消 筷 。 


ICMPvV6 为 出 错 消息 (类 型 1~4) 清除 类 型 字段 的 高 序 位 ， 并 为 信息 
性 消息 (类 型 128~137) 设置 该 位 。 
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QD 类 似 TCP 的 最 大 分 节 生 命 期 MSL 概 念 ， 不 过 一 个 IP 数 据 报 被 分 片 成 多 
个 分 组 之 后 ， 每 个 分 组 各 自 有 网 络 存 活期 ， 整 个 IP 数 据 报 的 网 络 存活 期 
可 视 为 各 个 分 组 网 络 存活 期 之 和 。 译 者 注 


这 些 地 址 的 子 网 掩 码 是 0xffffffe0 或 255.255.255.224。 整 个 网 络 地 址 
(192.168.42.0/24) 和 各 个 子 网 地 址 (例如 192.168.42.32/27) 使 用 同样 
的 前 级 表示 记 法 。 


(3) 图 A-7 既 不 完备 又 存在 不 少 诸 误 ， 译 者 根据 RFC 3513 和 Stevens 先 生 在 
第 2 版 中 给 出 的 图 修订 为 下 面 的 图 A-7A。 译 者 注 
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AJA-7A  IPv6 地 址 中 高 序 位 的 含义 〈 修 订 ) 


附录 B 虚拟 网 络 


B.1 概述 


往 TCP 中 加 入 一 个 新 特性 时 ， 对 于 该 特性 的 支持 只 需 在 使 用 TCP 的 
主机 上 实现 ， 路 由 器 则 无 需 改动 。 举 例 来 说 ， 在 RFC 1323 中 定义 的 长 胖 
管道 支持 就 是 这 样 的 一 个 特性 ， 它 要 求 的 变动 正在 缓慢 地 出 现在 TCP 的 
主机 实现 中 ， 当 建立 一 个 新 的 TCP 连 接 时 ， 每 端 都 可 能 判定 对 端 是 否 已 
文 持 这 个 新 特性 。 如 果 两 庙 主 机 都 文 持 该 特性 ， 它 就 可 能 被 用 上 。 


这 一 点 不 同 于 对 IP 层 所 做 的 改动 ， 壁 如 说 20 世 纪 80 年 代 末 的 多 播 和 
90 年 代 中 的 IPvV6， 因 为 这 些 新 特性 要 求 所 有 主机 和 所 有 路 由 器 都 进行 改 
动 。 然 而 人 们 不 愿意 等 到 所 有 系统 都 升 完 级 才 开 始 使 用 这 些 新 特性 。 为 
此 ， 人 们 使 用 隧道 (tunnel) 在 已 有 的 IPv4 因 特 网 上 建立 虚拟 网 络 


Cvirtual network) 。 





B.2 MBone 


我 们 使 用 隧道 构造 的 第 一 个 虚拟 网 络 例子 是 MBone， 它 起 始 于 1992 
年 前 后 LEriksson 1994] 。 如 果 一 个 LAN 上 有 2 个 或 多 个 主机 支持 多 
播 ， 多 播 应 用 系 统 就 可 以 运行 在 所 有 这 些 主机 上 并 彼此 通 前 信 。 为 了 把 这 
样 的 LAN 连 接 到 另外 一 个 同样 有 主机 支持 多 播 的 LAN 上 ， 这 两 个 LAN 中 
需 各 有 一 个 主机 相互 之 间 配 置 出 一 个 隧道 ， 如 图 B-1 所 示 。 我 们 在 该 图 
中 用 数字 标 出 了 如 下 的 步骤 。 
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图 B-1 MBone 上 使 用 的 IPv4 套 IPv4 封 装 
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(1) 源 主机 MH1 上 的 某 个 应 用 进程 向 一 个 DD 类 地 址 发 送 一 个 多 揪 
数据 报 。 


(2) 我 们 把 它 展 示 成 一 个 UDP 数据 报 ， 因 为 大 多 数 多 播 应 用 程序 


都 使 用 UDP。 我 们 已 在 第 21 章 较 具 体 地 讨论 过 多 播 以 及 如 何 发 送 和 接收 
多 播 数 据 报 。 


(3) 该 数据 报 由 本 LAN 上 所 有 支持 多 播 的 主机 接收 ， 其 中 包括 
mo Le eaten a 
“Jjmrouted 程 序 。 


(4) MR2 在 该 数据 报 之 前 冠 以 另 一 个 IPv4 首 部 ， 并 把 这 个 新 首部 
的 目的 IPv4 地 址 设置 成 隧道 端点 Cunnel endpoint) MR5 的 单 播 地 址 。 这 
个 单 播 地 址 是 由 MR2 的 系统 管理 员 配置 并 由 mrouted 程 序 在 局 动 阶段 读 
入 的 。 类 似 地 ， 在 隧道 对 端的 MR5 上 也 配置 了 MR2 的 单 播 地 址 。 新 的 
IPv4 首 部 的 协议 字段 被 设置 成 4， 代 表 IPv4 套 ITPv4 〈IPv4-in-IPv4) 封 
装 。MR2 然 后 把 该 数据 报 发 送 给 下 一 跳 路 由 器 UR3， 它 被 明确 地 标注 成 
一 个 单 播 路 由 器 。 也 就 是 说 UR3 不 理解 多 播 ， 这 正 是 我 们 使 用 隧道 的 原 
因 。 新 的 IPv4 数 据 报 的 阴影 部 分 相 比 步骤 1 所 发 送 的 数据 报 除 了 所 封装 
IPv4 首 部 的 TIL 字 段 递减 外 没有 其 他 变化 。 


(5) UR3 碍 找 最 外 层 IPv4 首 部 中 的 目的 IPv4 地 址 ， 然 后 把 该 数据 报 
转发 给 下 一 跳 路 由 器 UR4， 它 是 另外 一 个 单 播 路 由 器 。 


(6) UR4 把 该 数据 报 递 送 到 它 的 目的 地 MR5， 它 是 隧道 端点 之 








(7) MR5 接 收 该 数据 报 ， 友 现 其 协议 字段 指明 IPv4 套 IPv4 封 装 ， 
于 是 去 除 最 外 层 IPv4 首 部 ， 然 后 把 该 数据 报 的 剩余 部 分 (也 就 是 在 顶部 
LAN 上 多 播 过 的 UDP 数 据 报 的 一 个 副本 〉 作为 一 个 多 播 数 据 报 输出 到 自 
己 所 在 的 LAN 上 。 


(8) 底部 LAN 上 的 所 有 支持 多 播 的 主机 痢 接 收 到 这 个 多 播 数据 





最 终结 果 是 在 顶部 LAN 上 发 送 的 多 播 数据 报 被 同样 作为 多 播 数 据 报 
在 底部 LAN 上 传送 。 即 使 跟 这 两 个 LAN 分 别 相连 的 那 两 个 路 由 器 以 及 它 
们 之 间 的 所 有 因特网 路 由 器 都 没有 多 播 能 力 ， 该 结果 也 照样 友 生 。 


本 例 中 我 们 展 出 每 个 LAN 各 有 一 个 主机 通过 运行 mrouted 程 序 提供 
多 播 路 由 功能 。 这 是 MBone 一 开始 的 做 法 。 然 而 到 了 1996 年 左右 ， 多 播 
路 由 功能 开始 出 现在 大 多 数 主要 路 由 器 厂商 生产 的 路 由 器 中 。 要 是 图 B- 


1 中 的 那 两 个 单 播 路 由 路 UR3 和 UR4 具 有 多 播 能 力 ， 我 们 就 根本 不 需要 
运行 mrouted， 因 为 UR3 和 UR4 将 用 作 多 播 路 由 器 。 然 而 只 要 UR3 和 UR4 
之 间 仍 然 有 无 多 播 能 力 的 其 他 路 由 器 ， 隧 道 就 是 必需 的 。 这 时 的 隧道 端 
点 将 是 MR3 (UR3 的 能 多 播 蔡 代 物 ) 和 MR4 (UR4 的 能 多 播 蔡 代 物 )， 
而 不 是 MR2 和 MR5。 


在 图 B-1 所 示 的 情形 中 ， 每 个 多 播 分 组 在 顶部 和 底部 的 LAN 上 均 出 
现 两 次 : 一 次 是 作为 一 个 多 播 分 组 ， 另 一 次 是 作为 隧道 内 的 一 个 单 播 分 
组 穿行 在 运行 着 mrouted 的 主机 和 下 一 跳 单 播 路 由 器 之 间 【〔 例 如 MR2 和 
UR3 之 间 以 及 UR4 和 MR5 之 间 ) 。 这 个 额外 的 副本 是 隧 穿 的 代价 。 把 图 
B-1 中 的 那 两 个 单 播 路 由 器 UR3 和 UR4 蔡 换 成 多 播 路 由 器 〈 称 为 MR3 和 
MR4) 的 优势 在 于 避免 每 个 多 播 分 组 的 这 个 额外 副本 出 现在 LAN 上 。 即 
使 MR3 和 MR4 之 间 因 为 菜 些 中 间 路 由 器 (图 中 未 展示 ) 没有 多 播 能 力 而 
必须 建立 一 个 隧道 ， 这 种 替换 依然 优势 明显 ， 毕 竞 能 够 避免 在 每 个 LAN 
上 复制 副本 。 


MBone 如 今 已 被 原生 (native) 多 播 网 络 取代 而 几乎 不 复 存 在 。 在 
因特网 多 播 基础 设施 中 仍 可 能 出 现 隧道 ， 不 过 它们 往往 存在 于 同一 个 
ISP 内 部 的 多 播 路 由 器 之 间 ， 对 于 最 终 用 户 是 不 可 见 的 。 














B.3 6bone 


6bone 是 出 于 类 似 MBone 的 原因 于 1996 年 创建 的 一 个 虚拟 网 络 : 由 
支持 IPv6 的 主机 构成 的 各 个 孤岛 上 的 用 户 希 望 使 用 一 个 虚拟 网 络 连接 在 
一 起 ， 而 不 必 等 到 所 有 的 中 间 路 由 器 都 变 成 文 持 IPv6。 本 书写 至 此 处 
时 ，6bone 己 因 人 们 更 偏好 原生 IPv6 部 署 而 趋 于 淘汰 ， 估 计 到 2006 年 6 月 
6bone 将 停止 运作 [Fink and Hinden 2003] 。 我 们 讨论 6bone 是 因为 它 是 
展示 经 配置 隧道 的 一 个 例子 。 我 们 将 在 B.4 节 把 这 个 例子 扩展 成 包含 动 
态 障 道 。 图 B-2 展 示 的 例子 中 有 两 个 文 持 IPv6 的 LAN 使 用 一 个 隧道 彼此 
连接 ， 而 该 隧道 穿越 的 中 间 路 由 器 只 支持 IPvV4。 我 们 还 在 该 图 中 用 数字 
标 出 了 如 下 的 步骤 。 
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图 B-2 ”6bone 上 使 用 的 IPv4 套 IJPv6 封 装 


886 一 887 
(1) 顶部 LAN 上 的 主机 H1 发 送 一 个 承载 某 个 TCP 分 节 的 IPv6 数 据 











报到 底部 LAN 上 的 主机 H4。 我 们 把 这 两 个 主机 标注 成 “TIPv6 主 机 ”， 不 过 
它们 均 可 能 还 运行 IPv4。H1 上 的 IPv6 路 由 表 指 定 主 机 HR2 为 下 一 跳 路 由 
人 


(2) 主机 HR2 有 一 个 到 达 主 机 HR3 的 经 配置 隧道 。 该 隧道 通过 在 
IPv4 数 据 报 中 封装 IPv6 数 据 报 〈 称 为 IJPv4 套 IPv6 封 装 ) 使 得 IPv6 数 据 报 
能 够 穿越 ITPv4 因 特 网 在 两 个 隧道 端点 之 间 传 送 。IPv4 协 议 字 段 的 值 为 
41。 我 们 指出 隧道 两 端的 那 两 个 IPv4/IPv6 主 机 HR2 和 HR3 还 同时 扮演 
IPv6 路 由 器 角色 ， 因 为 它们 都 把 从 一 个 接口 接收 到 的 IPv6 数 据 报 转发 到 
男 一 个 接口 。 经 配置 隧道 也 计 作 一 个 接口 ， 不 过 它 是 一 个 虚拟 接口 而 不 
是 一 个 物理 接口 。 
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(3) 隧道 端点 之 一 的 HR3 接 收 这 个 经 过 封装 的 数据 报 ， 剥 掉 它 的 
IPv4 首 部 后 把 剩 下 的 IPv6 数 据 报 发 送 到 目 己 所 在 的 LAN 上 。 


(40 目的 主机 H4 接 收 到 这 个 IPv6 数 据 报 。 


B.4 6to4: IPv6 过 流 


在 “Connection of  IPv6 Domains via IPv4 Clouds” (RFC 
3056 [Carpenter and Moore 2001] ) 一 文中 详 述 的 6to4 过 渡 机 制 是 在 图 
B-2 所 示 虚 拟 网 络 中 动态 创建 隧道 的 一 个 方法 。 与 先前 设计 的 动态 隧 罕 
机 制 不 同 的 是 ，6to4 仅 仅 涉 及 执行 障 穿 处 理 的 路 由 器 ， 先 前 设计 的 机 制 
却 要 求 每 个 个 体 主 机 都 有 一 个 IPv4 地 址 并 清楚 隧 穿 机 制 本 身 。6to4 使 得 
配置 更 为 简单 ， 并 有 一 个 便于 实施 安全 策略 的 集中 位 置 。6to4 功 能 还 允 
许 与 在 网 络 边 界 常 见 的 NAT/ 防 火 墙 功能 (例如 处 于 某 个 DSL 或 线 绕 调 
制 解 调 占 连 接 的 用 户 问 的 一 个 小 型 NAT/ 防 火 墙 设备 ) 并 置 。 


6to4 地 址 格式 如 图 B-3 所 示 ， 人 处 于 2602/16 范 围 之 内 。16 位 格式 前 
缀 gx26062 之 后 跟 以 32 位 IPv4 地 址 ， 两 者 共同 构成 公 网 拓扑 ID， 剩 下 16 位 
子 网 ID 和 64 位 接口 ID。 举 例 来 说 ， 与 我 们 的 主机 freebsd〈 其 IPv4 地 址 


7j12.106.32.254) 对 应 的 6to4 前 级 是 2002:c:20fe/48。 








图 B-3 ”6to4 地 址 





6to4 相 比 6bone 的 优势 体现 在 构成 6to4 基 础 设施 的 隧道 是 自动 建立 
的 ， 不 需要 预先 进行 配置 。 使 用 6to4 的 网 点 使 用 一 个 众所周知 的 IPv4 任 
播 地 址 CRFC 3068 [Huitema 2001] ) 192.88.99.1 配 置 一 个 默认 路 由 
器 ， 它 对 应 于 IPv6 地 址 2602:co58:6301: :。 愿 意 扮 演 6to4 网 关 角 色 的 原 
^E (native) IPv6 基 础 设施 上 的 路 由 器 必须 通告 一 个 去 往 2002/16 的 路 
径 ， 然 后 把 接收 到 的 IPv6 数 据 报 封装 在 IPv4 数 据 报 中 转发 出 去 ， 所 用 
IPv4 目 的 地 址 取 自 和 藤 在 6to4 地 址 中 的 IPv4 地 址 。 这 些 路 由 器 既 可 以 局 部 
Lg CPU 也 可 以 是 全 球 的 ， 具 体 取 决 于 它们 的 路 径 通 告 


这 些 虚 拟 网 络 的 最 终 目标 是 随 着 时 间 的 推移 ， 当 中 间 环 节 的 路 由 器 
逐渐 获得 所 需 的 功能 〈 就 MBone 而 言 是 多 播 路 由 ， 就 6bone 和 其 他 过 湾 
机 制 而 言 是 IPv6 路 由 ) 之 后 ， 它 们 将 消失 。 
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附录 C 调试 技术 


本 附录 包含 调试 网 络 应 用 程序 的 一 些 建议 和 技巧 。 没 有 单个 扩 巧 能 
够 答复 所 有 疑问 ， 而 是 介绍 了 我 们 应 熟悉 各 种 各 样 的 工具 ， 然 后 在 我 们 
的 环境 中 使 用 起 作用 的 任何 工具 。 








C. 系统 调用 跟踪 


许多 版 本 的 Unix 提 供 一 个 系统 调用 跟 踊 机 制 。 它 通常 可 以 作为 一 个 
有 价值 的 调试 技巧 。 


在 这 个 级 别 上 调试 程序 时 ， 我 们 需要 区 分 系统 调用 和 函数 。 前 者 是 
进入 内 核 的 入 口 点 ， 本 节 介 绍 的 工具 所 能 跟踪 的 正 是 它们 。POSIX 和 其 
他 大 多 数 标 准 使 用 函数 一 词 来 描述 在 用 户 看 来 是 函数 的 东西 ， 即 便 它 们 
在 某 些 实现 上 可 能 是 系统 调用 。 举 例 来 说 ， 在 源 自 Berkeley 的 内 核 
上 socket 是 一 个 系统 调用 ， 不 过 它 在 应 用 程序 开发 人 员 看 来 只 是 一 个 普 
通 的 C 函 数 。 然 而 在 SVR4 上 socket 却 只 是 套 接 字 函 数 库 中 的 一 个 库 函 
数 ， 由 它 调用 putmsg 和 getmsg， 后 两 者 才 是 真正 的 系统 调用 。 


我 们 在 本 节奏 看 运行 时 间 获 取 客 尸 程序 过 程 中 涉及 的 系统 调用 。 我 
们 在 图 1-5 中 给 出 了 该 程序 的 套 接 字 版 本 。 


C.1.1 BSD 内 核 套 接 字 


我 们 的 下 一 个 例子 是 源 自 Berkeley 的 内 核 之 一 FreeBSD， 它 的 所 有 
套 接 字 函 数 都 是 系统 调用 。FreeBSD 用 于 运行 一 个 程序 并 跟踪 所 执行 之 
系统 调用 的 程序 是 ktrace。 它 把 跟踪 信息 写 到 一 个 可 使 用 kdump 程 序 显 
示 的 文件 (其 默认 名 字 为 ktrace.out)。 我 们 如 下 执行 套 接 字 版 本 的 时 
间 获 取 客 户 程 序 : 























891 


freebsd % ktrace daytimetcpcli 192.168.42.2 
Tue Aug 19 23:35:10 2003 





然后 执行 kdump 把 跟踪 信息 倾泻 到 标准 输出 。 


3211 daytimetcpcli CALL socket(0x2, 0x1, 0) 
3211 daytimetcpcli RET socket 3 


3211 daytimetcpcli CALL connect(0x3, Ox7fdffffe820, 0x10) 
3211 daytimetcpcli RET connect 0 


3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 


3211 daytimetcpcli GIO fd 3 read 26 bytes 
"Tue Aug 19 23:35:10 2003\r\n 
n" 


3211 daytimetcpcli RET read 26/0x 


3211 daytimetcpcli CALL write(0x1, 0x204000, Oxla) 
3211 daytimetcpcli GIO fd 1 wrote 26 bytes 

"Tue Aug 19 23:35:10 2003\r\n 

W 


3211 daytimetcpcli RET write 26/0x 


3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 
3211 daytimetcpcli GIO fd 3 read 0 bytes 


3211 daytimetcpcli RET read 0 


3211 daytimetcpcli CALL exit(0) 


其 中 3211 是 进程 ID。cALL 标 明 系 统 调 用 ，RET 表 示 返 回 值 ，GITo 代 表 
普通 进程 TO。 我 们 看 到 socket 调 用 和 connect 调 用 之 后 是 返回 26 个 字 贡 
的 read 调 用 。 客 户 进程 把 这 些 字 节 写 到 标准 输出 ， 下 一 个 read 调 用 返回 
0 (EOF) 。 


C.1.2 Solaris9 内 核 套 接 字 


Solaris ”2.x 基 于 SVR4，2.6 以 前 的 所 有 版 本 如 图 31-3 所 示 实 现 套 接 
字 。 以 这 种 式样 实现 套 接 字 的 所 有 SVR4 系 统 存 在 的 一 个 问题 是 难以 
100% 地 莱 容 源 自 Berkeley 的 内 核 套 接 字 。 为 了 提供 额外 的 兼容 性 ， 
Solaris 2.6 及 以 后 的 版 本 更 改 了 实现 手段 ， 改 用 sockfs 文 件 系统 实现 套 接 
字 。 这 样 就 提供 了 内 核 套 接 字 ， 我 们 可 以 使 用 truss 在 我 们 的 套 接 字 客 
户 上 进行 验证 。 

solaris % truss -v connect daytimetcpcli 127.0.0.1 

Mon Sep 8 12:16:42 2003 





经 过 通常 的 函数 库 动态 链接 之 后 ， 我 们 看 到 的 第 一 个 系统 调用 
是 so_socket， 它 是 由 我 们 的 socket 调 用 引发 的 系统 调用 。 它 的 前 3 个 参 
数 就 是 我 们 调用 socket 的 3 个 参数 。 
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SO SOCket(PF INET, SOCK STREAM, IPPROTO IP, "", 1) = 3 
connect(3, OxFFBFDEFO, 16, 1) = 0 
AF INET name = 127.0.0.1 port = 13 


read(3, " Mon Sep 8 1".., 4096) - 26 
Mon Sep 8 12:48:06 m 


write(1, "Mon Se Mare 
read(3, OxFFBFDF0S3, 4896) = 0 


_exit(0) 


我 们 接 下 来 看 到 的 系统 调用 是 connect， 当 以 -v connect 标 志 执 
行 truss 时 ， 它 还 显示 由 第 二 个 参数 指向 的 套 接 字 地 址 结构 的 内 容 CIP 


地 址 和 端口 号 )。 我 们 用 省 略 号 省 挥 的 只 是 一 些 处 理 标 准 输入 和 标准 输 
出 的 系统 调用 。 





C.2 标准 因特网 服务 


我 们 应 该 已 经 熟悉 图 2-18 中 说 明 的 标准 因特网 服务 了 。 我 们 已 经 多 
次 为 测试 所 编写 的 客户 程序 使 用 了 aytime 服 务 。discard 服 务 是 我 们 问 
它 发 送 数 据 的 方便 端口 。echo 服 务 类 似 于 贯穿 本 书 使 用 的 回 册 服务 器 。 


许多 网 点 现在 茶 止 罕 越 防火 墙 访问 这 些 服 务 ， 因 为 从 1996 年 起 出 现 
的 一 些 拒绝 服 务 型 攻击 利用 了 这 些 服务 〈 习 题 13.3) 。 尽 管 如 此 ， 你 在 
目 己 的 网 络 内 部 还 是 有 和 希望 使 用 这 些 服务 的 。 








C.3 sock 程 序 


Stevens 先 生 编 写 的 sock 程 序 最 早出 现在 TCPv1 中 ， 在 那里 它 经 常用 
于 产生 特殊 的 个 案 条 件 ， 其 中 大 多 数 在 随后 的 正文 中 使 用 tcpdump 了 予以 
探查 。sock 程 序 的 便利 之 处 在 于 能 够 产生 如 此 之 多 的 不 同情 形 ， 从 而 免 
除 我 们 被 迫 编 写 特殊 测试 程序 之 苦 。 


我 们 不 在 正文 中 给 出 这 个 程序 的 源 代码 (超过 2000 行 的 C 代 码 )， 
不 过 是 可 以 公开 获取 的 (参见 前 言 )。 


该 程序 运作 在 以 下 四 个 模式 之 一 ， 而 且 每 个 模式 既 可 以 使 用 TCP， 
也 可 以 使 用 UDP。 








e 标准 输入 ， 标 准 输出 客户 《图 C-1) 。 
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图 C-1 sock 客 户 ， 标 准 输入 ， 标 准 输出 
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在 这 个 客户 模式 中 ， 从 标准 输入 读 入 的 任何 东西 都 写 出 到 网 络 ， 而 


从 网 络 接 收 的 任何 东西 部 写 出 到 标准 输出 。 服 务 絮 的 IP 地 址 和 端口 必须 
指定 ， 如 果 是 TCP 情 形 ， 该 程序 束 提 前 执行 一 次 主动 打开 操作 。 








e 标准 输入 ， 标 准 输出 服务 器 。 这 个 模式 类 似 上 一 个 模式 ， 差 别 只 是 
在 服务 器 模式 下 该 程序 捆绑 一 个 众所周知 的 端口 到 它 的 套 接 字 ， 并 
且 如 果 是 TCP 情 形 ， 那 就 提前 执行 一 次 被 动 打开 操作 。 

e 源 客户 《图 C-2) 。 
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图 C-2 作为 源 客户 的 sock 程 序 
该 程序 以 茶 个 指定 的 大 小 向 网 络 执 行 条 个 固定 数目 的 写 操作 。 





。 漏 槽 服务 器 《图 C-3) 。 
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图 C-3 ”作为 漏 槽 服务 器 的 sock 程 序 





该 程序 从 网 络 执行 固定 数目 的 读 操作 。 
这 4 种 运作 模式 与 以 下 4 个 命令 相对 应 : 


sock[options] hostname service 
sock[options]-s [hostname] service 
sock[options]-i hostname service 
sock[options]-is[hostname] service 


其 中 hostname 是 一 个 主机 名 或 IP 地 址 ，service 是 一 个 服务 名 或 端口 


号 。 除 非 在 使 用 那 两 个 服务 器 模式 时 指定 了 可 选 的 hpostname， 人 否则 捆绑 
的 是 通 配 地 址 。 


sock 程 序 约 有 40 个 命令 行 选项 可 以 指定 ， 它 们 开局 该 程序 的 可 选 特 
性 。 我 们 不 详细 说 明 这 些 选 项 ， 不 过 第 7 章 中 讲解 的 套 接 字 选项 差不多 





都 能 够 设置 。 不 给 出 任何 参数 执行 本 程序 显示 如 下 的 选项 汇总 输出 。 
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-bn bind n as client’ s local port number 
-C convert newline to CR/LF & vice versa 
-f a.b.c.d.p foreign IP address = a.b.c.d, foreign port# = p 
-g a.b.c.d loose source route 
-h issue TCP half-close on standard input EOF 
-i "source" data to socket, "sink" data from socket (w/-s) 
-j a.b.c.d join multicast group 
-k write or writev in chunks 


-l a.b.c.d.p client' s local IP address = a.b.c.d, local port# = p 
-nn #buffers to write for "source" client (default 1024) 

-0 do NOT connect UDP client 

-pn #ms to pause before each read or write (source/sink) 

-q n size of listen queue for TCP server (default 5) 

-r n #bytes per read() for "sink" server (default 1024) 


-S operate as server instead of client 
-t n set multicast ttl 

-u use UDP instead of TCP 

-V verbose 


-w n #bytes per write() for "source" client (default 1024) 


-xn #ms for SO RCVTIMEO (receive timeout) 

-y n #ms for SO_SNDTIMEO (send timeout) 

-A SO_REUSEADDR option 

-B SO BROADCAST option 

-C set terminal to cbreak mode 

-D SO DEBUG option 

-E IP RECVDSTADDR option 

-F fork after connection accepted (TCP concurrent server) 


-G a.b.c.d strict source route 
-Hn IP TOS option (16=min , 8=max thru, 4=max rel, 2-min cost) 


-I SIGIO signal 

-J n IP_TTL option 

-K SO_KEEPALIVE option 

-L n SO_LINGER option, n = linger time 

-N TCP_NODELAY option 

-0 n #ms to pause after listen, but before first accept 

-P n #ms to pause before first read or write (source/sink) 
-Q n #ms to pause after receiving FIN, but before close 

-R n SO_RCVBUF option 

-S n SO SNDBUF option 

-T SO REUSEPORT option 

-Un enter urgent mode before write number n (source only) 
-V use writev() instead of write(); enables -k too 

-W ignore write errors for sink client 

-Xn TCP_MAXSEG option (set MSS) 

-Y SO DONTROUTE option 

-Z MSG PEEK 
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C.4 小 测试 程序 


[ER (Stevens i) 在 撰写 本 书 期 间 一 直 使 用 的 另 一 个 有 用 的 调试 
技巧 就 是 编写 小 测试 程序 以 检查 某 个 给 定 的 特性 在 精心 构造 的 测试 个 案 
中 如 何 工作 。 有 一 组 库 函 数 的 包 讲 函 数 和 一 些 简单 的 错误 处 理 函数 就 
如 贯穿 本 书 使 用 的 那些 ) 有 助 于 编写 这 些小 测试 程序 。 这 些 函 数 缩减 了 
我 们 被 迫 编写 的 代码 量 ， 不 过 仍然 提供 所 需 的 错误 测试 能 


C.5 tcpdump 程 序 








示 与 所 指定 的 准则 匹配 的 那些 分 组 。 例 如 : 


% tcpdump '(udp and port daytime) or icmp' 


只 显示 源 端 口 或 目的 端口 为 13〈daytime 服 务 ) 的 UDP 数据 报 亦 或 
ICMP 分 组 。 再 如 : 


% tcpdump 'tcp and port 80 and tcp[13:1] & 2 !=0' 


只 显示 源 端口 或 目的 端口 为 80 (HTTP 服 务 ) 且 设 置 了 SYN 标 志 的 
TCP 分 节 。SYN 标 志 在 从 TCP 首 部 开始 处 起 字 节 偶 移 量 为 13 的 那个 字 节 
中 的 值 为 2。 又 如 : 


% tcpdump 'tcp and tcp[0:2] > 7000 and tcp[0:2] <= 7005' 








只 显示 源 端 口 在 7001 和 7005 之 间 的 TCP 分 节 。 源 端口 在 TCP 首 部 中 
从 字 节 偶 移 量 为 0 开始 占据 2 个 字 节 。 


TCPv1 的 附录 A 详 细 讲 述 了 这 个 程序 的 具体 运作 。 


该 程序 可 从 http:/www.tcpdump.org/ 获 取 ， 能 够 工作 在 许多 不 同 版 本 
的 Unix 上 。 它 最 初 是 由 LBL 的 Van Jacobson, Craig Leres 和 Steven 
McCanne 编 写 的 ， 现 在 由 tcpdump.org 的 一 支队 伍 维护 。 


有 些 厂家 上 自己 提供 具有 类 似 功 能 的 程序 ， 例 如 Solaris 2.x 提 供 snoop 
程序 。 tcpdump 的 优势 在 于 它 在 许多 版 本 的 Unix 上 都 能 工作 ， 而 在 异 构 
ee SISUSDN eU 
c CULA. 








C.6 netstat#z)? 
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" 我 们 已 经 贯穿 全 书 多 次 使 用 netstat 程 序 。 该 程序 服务 于 多 个 目 





。 展示 网 络 端点 的 状态 。 我 们 在 5.6 节 启动 TCP 回 射 客 户 和 服务 器 程序 
之 后 如 此 追踪 两 个 端点 的 状态 。 

e 展示 某 个 主机 上 各 个 接口 所 属 的 多 播 组 。-ia 标 志 是 展露 多 播 组 的 
通常 方式 ， 在 Solaris 2.x 上 则 使 用 -9 标志 。 

e 使 用 -s 选 项 显示 各 个 协议 的 统计 信息 。 我 们 在 8.13 节 查看 UDP 缺乏 
流量 控制 能 力 时 给 出 了 这 样 的 例子 。 

。 使 用 -r 选 项 显示 路 由 表 或 使 用 -i 选 项 显示 接口 信息 。 我 们 在 1.9 节 使 
用 netstat 发 现 我 们 的 网 络 拓扑 时 给 出 了 这 样 的 例子 。 


netstat 还 有 其 他 的 用 途 ， 大 多 数 厂 家 又 目 行 添 加 了 一 些 特性 ， 具 
体 参 见 自 己 系统 上 的 手册 页 面 。 














C.7 lsof 程 序 


名 字 1sof 代 表 “ 列 出 打开 的 文件 (Uist open files) ”。 与 tcpdump 一 
pears 并 已 被 移植 到 许多 版 本 
JUnixHH. 


lsof 的 第 见 用 途 之 一 是 找 出 哪个 进程 在 指定 的 人 P 地 址 或 端口 上 打开 
了 一 个 套 接 字 。netstat 告 诉 我 们 哪些 IP 地 址 和 端口 正在 使 用 中 以 及 各 
个 TCP 连 接 的 状态 ， 却 没有 标识 相应 的 进程 。1sof 弥 补 了 这 个 缺陷 。 举 
例 来 说 ， 为 找 出 哪些 进程 在 提供 daytime 服 务 ， 我 们 执行 如 下 命令 : 


freebsd % lsof -i TCP:daytime 


COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME 

inetd 561 root 5u IPv4 Oxfffff260 oto TCP *:daytime 
(LISTEN) 

inetd 561 root 7U IPv6 Oxfffff800302b6720 oto TCP *:daytime 


lsof 告 诉 我 们 命令 〈 本 服务 由 inetd 服 务 器 提供 ) 、 它 的 进程 ID、 
属 主 、 描 述 符 〈IPv4 为 5，IPv6 为 7，u 表 示 打 开 目 的 是 读 与 写 ) 、 套 接 
字 类 型 、 协 议 控 制 块 地 址 、 文 件 的 大 小 或 偏 移 (对 于 套 接 字 没有 意 
义 ) 、 协 议 类 型 及 名 称 。 呈 

该 程序 的 常见 用 途 之 一 是 : 如 果 在 启动 一 个 捆绑 其 众所周知 端口 的 
服务 器 时 得 到 该 地 址 已 在 使 用 的 出 错 消息 ， 那 么 我 们 可 以 使 用 1sof 找 出 
正在 使 用 该 端口 的 进程 。 


由 于 lsof 只 报告 打开 着 的 文件 ， 因 此 无 法 报告 不 跟 某 个 打开 着 的 文 
件 关 联 的 网 络 端点 : 处 于 TIME_WAIT 状 态 的 TCP 端 点 。 


lsof 程 序 可 从 ftp://lsof.itap.purdue.edu/pub/tools/unix/lsof/ 获 取 。 它 是 
由 Vic Abell 编 写 的 。 


有 些 厂家 提供 自己 的 类 似 工 具 ， 例 如 FreeBSD 提 供 fstat 程 序 。l1sof 
的 优势 跟 tcpdump 一 样 ， 仍 然 在 于 它 在 许多 版 本 的 Unix 上 都 能 工作 。 
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QD 作者 在 正文 中 说 文件 的 大 小 或 偏 移 对 于 套 接 字 没有 意义 ， 然 而 这 个 程 
FF Oso 的 作者 却 认为 套 接 字 的 偏 移 可 能 会 很 有 用 。 大 多 数 Unix 系 统 
上 偏 移 来 自 fie 结 构 的 f_offset 成 员 。 该 结构 成 员 在 每 次 输入 或 输出 文件 
因此 偏 移 量 的 变化 对 套 接 字 来 说 意味 着 数据 的 传送 
EHET Fo 














附录 D JR HV CAS 


D.1 unp.h 头 文件 


本 书 正文 中 几乎 每 个 程序 都 包含 如 图 D-1 所 示 的 unp.h 头 文件 。 该 头 
文件 包含 大 多 数 网 络 程序 都 需要 的 所 有 标准 系统 头 文 件 以 及 一 些 普通 的 
系统 头 文件 。 它 还 定义 了 诸如 MAXLINE 等 常 值 ， 并 定义 了 我 们 在 正文 中 
定义 过 的 函数 《例如 readline) 以 及 所 用 到 的 所 有 包 衷 函数 的 ANSI CER 
数 原型 。 我 们 没有 给 出 这 些 原 型 。 








lihunp h 
1 /* Our oan header. Tabs sire set for 4 spaces, nut 8 4/ 

2 fifncCef — vnp n 

3 fdc-inc unp 5 

4 #include ",./config.h"* /* configuration zpticns for current O3 */ 

5 j=" ^ccnlig.h* is generated by nf gure d 


€ /* If anything changes in tne fcllowinz list of includes, rust change 
accite.14 alco, for conrfiqure'c tecto. */ 


6 #include «sys/types.h- /* basic systern data -ypes “/ 

9 Rinclu2e egys/ socker Ti» /* basic secket definitions */ 

10 #include «Sys/tine.a^ /* timeval[) for select() */ 

11 #include < 七 ime ,中 > /* timespec() tor pselect{) */ 

12 #include enstinet/in.h> /* scckadd- in!) and cther Internet defns */ 
13 include earpa/iner ,h> /* inerí3) funericns */ 

14 #include «errno.h» 

15 include sicntl.h- /* fcr nonblocking */ 


16 include «nstdb.hs 
17 #include «signal .n> 
18 #include <ctdio.h> 
19 #include <stdlis.h> 


20 inchide <string.h> 

al finclude <8y6/stat. n> /* fcr S Xxx flle mda conetants v/ 
22 #include <SyG/uio.h> /* ter iovec[) and readv/writey */ 
23 #include <unistd.h> 

24 #include «sys/wa-z-.n* 

25 finclude <eye/un.h> /* for Unix domain sockete */ 


26 ifdef [IAVE SYS SELECT )} 
27 & include  <sys/select.h> /* fcr convenierce */ 
28 #endit 


349 fafdet HAVE SYS SYSCTL H 
30 # include — «sys/sysctl.h» 
37 ğendir 


32 fifdef HAVE POLL A 
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33 
34 


35 
35 
37 


38 
Jä 
42 


41 
42 
43 
41 
45 
45 
47 
43 
45 
59 
51 
52 


53 
54 
55 


55 
5? 
58 


53 
60 
61 


62 
63 
64 
65 


65 


67 
eU 


68 
70 
了 1 


了 2 
73 
74 
75 
15 
77 
78 
73 
82 


A1 


8 incluóe <poll b> 
ftendif 


Hitdet HAVE EYE EVENT H 
# include <sys/event.h> 
endif 


Hifdef HOVE STRINGS H 
ff include <etrince.h> 
#endit 


, 
ra 


, 
/* 


/* for convenience */ 


for kqueus */ 


for converiance */ 


/* Three headers are normally needed for sccket/file ioctl's: 
+ cnüys/-cctl.h», csys/filis.ho, and <sys/sockino.ne- 


af 

Hizdef HAVE SYS LUCIL H 
H include — «ays/ioczl.h- 
fendif 

Hifdef HAVE SYS FILIO H 
# include <sys/filio.h- 
Hendif 

Wiidef MAVE_SYS SCCXIO I 
M oincludie €sys/soin.fi 


endif 


Hizdef HAVE ZTHKREAD H 
# incluse <pthresd.h> 
endif 


WiTdef WAVE NET IF D: H 
8 include — enet/if dl.hs 
Hendif 


Hitdet HAVE NETINET SCTP E 
#includs <netinet /sctp.h> 
Mendif 


/* OSF/1 actually disables recv() amà secd() in esys/sneket n» af 


Hifdef osf 
fundet Tec 
fundef send 


Wdefine recvia,b,c,dt recvfrom (a,b,c,d, 6,0: 
Hdefine sendia,b,c,di sen3t2/a,5,c,4,0,0) 


fendif 


Hizndef -NADDR NONE 
fidefine -NADDR NONE Oxffffffff 
Wendif 


Hifndef SHUT RD 
fdefine SHUT FD Ü 
Wdefine SHUT WD 1 
Hdefine SHUT_RDWR 2 
Hemllif 


Hifndef -NET ADDRSTR-EN 
#detine INET ADDRSTRLEN 16 


Hendif 


, 
J ^ 


74 Def ne following even if TRvS nt 


should have been in «netinet/in.h» */ 


these thrse POSIX rares are new */ 
shutdown, for reading */ 
shutdowr for writing */ 
shutdown. for reading and writing */ 


"dod. ddz, zad. dddNo" 
12345€7E90123456 */ 


supported, so we ran always allocate 
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J5 


100 
151 


102 
103 
124 
125 
106 
127 
138 
199 
110 


111 
112 
113 
114 
115 
116 
117 


118 
119 
120 
121 
ize 
123 
124 
125 


126 
127 
128 
129 
130 
131 
132 
133 


an adequately sized suffer withcut #ifdefs in the code, */ 
Wifndef INET ADIRSTRLEN 
#detine INET6_ADDRSTALEN 46 /* max oise ot =-Pv6 address string: 
"MMMM i MMMM NAMM: MMMM XXHX : KXXX XXNX XXX" Or 
Noe OCONEE hex oa aaa ddd. ddd. ddà . dàdV 2 * 
7234557891*23455789112345678921234567890n1234^56 */ 
$eadit 


/* Define bze-ol! as a macro i= it's not in standard C likrary. */ 
#itndez HAVE DEBRO 

f$dcfine bzcrc(pt-z,n) memset (ptr, 0, n) 

fendif 


/* Older resclvere do nct have qethoztbyname2;) */ 

fitndelHEAV3 GETHOSTBYNAN32 

#de=ine cethasthyname2 (host, family) gethosthyranme ( host.) | 
fendit 


/* The structure returned Sy recvirom_flags() */ 
struct unp_in_pktinto { 
struct in_addr ipi addr; /rv det IPV addrece */ 
ins ipi ifindex; f= received interface index */ 
+; 
/* We weed the newer CMSG LEN!) and CMSG SPACE() macros, but few 
implementations support them today. These two macros really need 
an ALIGN!) macro, but esch implementation does this differently. */ 
4itndet (MƏG_LIN 
4define CSG LaNicize) (sizeof(strucc ewsqhir] + (size!) 
Sendif 
4ifrdef CMSG_SPAC3 
#define ŒMƏG_STACZ (size) {sizeotistruct cnagher) + is:zc!) 
endif 


/* POSIX requires the SUN LEN') macro, but not all implementations define 
iz (yet). Note that thie 4.4BS0 macro works reqardlese whether there is 
三 length field cr not. */ 

lifndef — SUN LIEN 

# define | SUN LEN(su) * 
Isizscfi*(su!] - sizeof[ísu)--sun path) - strleni(su) »5un zatt] 

Hendir 


/* POSIX renames "Unix domain" as "local IPC." 
Not all syezems Defins AF LOCAL and PF LOCAL (yer). */ 
Hi fndef AF TOCAL 
define AP LOCAL — AP UNIX 
#endif 
#ifrdef PF LOCAL 
4define PF LOCAL PF UNIX 
endif 


/* POSIX requires the: an dinclude of cpoll.h» Jefine INFTIM, Lut many 
systems still define it in esys/stropts hs. We Con' > want co include 
all the STREAMS stuff if it'a not needed, ao we just define INFTIM here. 


Thies ic the ctandzrd value, but there'c no guarantee it ic -l, */ 


4ifrdef INFIIM 

define IMFTIM (-1) f* infinite poll timeout */ 
Yifdef HAVR_ POT H 

#detine INFTIM_UNPH /* tell urpxti.h we cefined it */ 
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134 Hendiz 
135 Hendi 


138 /* Following could be derived from SUMAXCONN in <seye/eocket.h>, but many 
137 kernels still 4define it as ^, while actually supporting many more */ 


138 Hdefine LISTEN? 1024 /* 2nd argument to listen) */ 

135 /+ Miscellaneous constants */ 

142 deine MAXLINE 4095 /* mex -ext line lergth */ 

141 Wdefine BUFFSIZEZ 8192 /* buffer cize for reade and wrítec */ 
142 /* Define some port number that can be used for our examples */ 

143 Hdetine SERV SORT $877 /* TCS and UDS */ 

141 Hdezine SERV PORT STR "9E77" /* TCP and UDP */ 

145 Wde^ine DNTXSTR PATE "/tapsunia.sie” f* Unix Conain stream ?/ 
145 define UNIXDG PATH */tmp/unix,.dg" /* Unix Somain datagram */ 


14) /* Following shortens al. the typecasts cf pointer arguments: v/ 
143 Wderzine SA scruc- sockadzr 

143 Hdefine EAVZ STRUCT SOCHADDR STORAGE 

153 #ifndef HAVZ STRUCT SOCKADDR STORAGE 

Bi 

152 * RPC 3493: protocol-indspendent placehclder for socket addresses 
153 */ 

154 fine _ S38 MAXSIZS 120 

155 Wde^ine — SS ALTGNSTZR (sizeaf(int64 ti) 

155 fifde? HAVE SUCKAUDA SA LEN 

157 Wdefine — 33 PADISIZE (_ S5 ALIGNSITE - sizeoF/L char) - sizeofísa fani-y t!) 
158 Helse 

153 Hdcfinc ^ £8 TADISIZE (_ 85 ALIGNSIZE sizeot ‘sa fcmily t!) 

162 Wendi- 

161 Mdefine SS 2AD28I2E (SE MAXSIZE - 2* S5 ALIGNSIZE) 


162 struct sockaddr ecoraze ` 
163 Wifde? HAVE_SOCXADDR_SA_LEN 


164 u char ss len; 

165 Wendi- 

165 sa family tas family: 

167 char ss Pad-[ SS FADISIZK]: 

163 inkt64 t — sa align; 

163 char SR pad2[ S8 FAD2STZFE]: 

170 }: 

171 Hendit 

172 Wdezine PILS_MODE  !|S IRUSR | S_IWJSR | S IRGRP | 5 IROTIÜ 

173 /* default file access permissions for nsw files */ 
174 Wáefine DIR MOD3 {FILE MODE | s IXUS& | S IXSRP | S IXOTH) 

175 /* detault cermissions tor new directories */ 


175 typedef void Sigtunci(int;;  /* for cignal handlers */ 


177 Hdctinc min(a,b} (à! < (b! ? (à) = (b); 
173 define nmaxía.b! ifai > (bi ? fad : (b)? 
173 Wifndef HAVE ACZDSINFO CTRUCT 

182 上 include "../lit/adzirinfo.h' 

181 #endi? 

182 Hifndef HAVE IF NAMEINDEX STRUCT 

183 struct it nomcindox ` 

184 unsigned in- if irdex;  /* 1, 2, ... */ 
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165 
186 
1&7 
1&8 


190 
191 
192 
193 


char 


h 


tencit 


ditndsf 


tine t 
long 
d 


3enaàif 


“if name; 


/* rull-termineted nane. 


HAVE TIMESPEC STRUCI 
169 struct t-vespec { 


tv sec; 
Lv nec; 


/* seconds */ 


/^ ami arose 8/7 
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图 D-1 我 们 的 unp.h 头 文件 


*le2', 


wj 


Fi 


D.2 config. h 汰 文件 


本 书 使 用 GNU ”autoconf 工 具 辅 助 保障 所 有 源 代 码 的 可 移植 性 ， 它 
可 以 从 http:/ftp.gnu.org/gnu/autoconf 获 取 。 这 个 工具 生成 一 个 名 
为 configure 的 shell 脚 本 ， 你 把 软件 下 载 到 本 地 系统 之 后 必须 运行 它 。 
该 脚本 确定 你 的 Unix 系 统 提供 哪些 特性 ， 套 接 字 地 址 结构 有 长 度 字段 
吗 ? 支持 多 播 吗 ? 支持 数据 链 路 套 接 字 地 址 结构 吗 ? 等 等 ， 生 成 一 个 名 
为 config.h 的 头 文件 。 它 是 上 一 节 介 绍 的 unp.h 文 件 包含 的 第 一 个 头 广 
件 。 图 D-2 给 出 了 FreeBSD 5.1 上 生成 的 这 个 config,h 头 文件 。 


其 中 从 第 一 列 开始 以 #define 打 头 的 行 表示 该 系统 提供 的 特性 。 注 
释 掉 并 含有 #undef 的 行 代表 该 系统 没有 提供 的 特性 。 


Spancó4-mmoiown-jrecosas. i/comig.h 





a 


/* confic.h. Gensreted automatically by configure.  */ 
/* econfig.h.in. Generated automatically from cznfigure.in by au-oheazer.  */ 


M 


et 


/* CPU, vendcr, and operating system */ 
#detinc CPU VENDOR OS "'SGparc64-urkrown- frccboz5.1" 


小 


/* Define if <netdb.h> defines strict addrinfs */ 
tdeline HAVE_ADDRINFO_STRUCT 1 


J* Define if yeu have the «arpe/inet .hy header file. */ 
tidefine HAVE ARPA INEI H 1 


/* Define if you have the bzero furction. */ 
10 3def-re HAVE BZERO 1 


11 /* Define if che /Iev/streams/xLiso/Lup device exists */ 
12 /* undef HAVE LEV STREAMS XTISO TC? */ 


13 /* Define if che /Zev/tcp device exiscs */ 
14 /* Wundef HAVE_DEV_TCP */ 


15 /* Define if che /Zev/xti/tcp device exists */ 
16 /* &urdef HAVE DEV XTT TCP ^/ 


17 f* Define if you have rhe cevrno.7» header file. */ 
18 #define HAVE ERRNO H i 


19 /* Define if you have the <fertl.n> header fils. */ 
20 def :re HAVE SCNTL H 1 


21 /* Define if you have the geradsrinfo functicn. */ 
22 téefine HAVE GETADURINFO J 
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/* Gefine if gecadárinfo protctype is in <netdb.n> t 
Wdetine HAVE GETADDRINSO PROTO 1 


/* Define if vou have the getnostbynamez function. */ 
define HAVE_GETHOSTBYNAMEZ 1 


/* Detine it you have che getnostbyname_r functicn. */ 
/* #unde= HAVE GETHOSTSYNAME 3 */ 


/* Detine it you have the getnostname tunction. */ 
Hdefiue HAVE GETHOSTMAME 1 


/* define if gsthostneme protctype is in <unistd.h» */ 
fasEine HAVE GETHOSINAME PROTO 1 


/* Define if you have che getcameinfo function. */ 
Hidefine HAVE GETNAMEINsO 1 


/* define if getname info prototype is in enetilbi s» 8*7 
Hdetine HAVE CETNAMBIN-O PROTO 1 


/* define if getrusage prototyps is in «sys/resource.h» */ 
Hdefine HAVE GETRUSAGE PROTO 1 


/* Define if you have the hstrerror function, */ 


0 Hdefine HAVE H3TRERROR 1 


/* detine if hstrerror prototyps ic in «netdb.h» */ 
Hdefine HAVE HSTRZERROR P3OTO 1 


/* Define if «net/it.b» defines struct if_nameindex */ 
Hae Sic HAVE 7F NAMETNCEX STRUCT 1 

/* DeEine if vou have the iz nametoindex function. */ 
Hdeziue HAVE IF NAMBTOLMCEX 1 

/* define if if nametoindex prototype is in «net/:f.h» */ 
H@efine HAVE IF NAMBTOLNZ-EX PROTO 上 

/* Define if you have -he inet aton function. */ 

Hácfine HAVE -NET ATON l 

/* deEine if -net aton prototyps is in carpa/inet Lk» */ 
Hdetine HAVE -NET ATON P3OTO 1 


/* Define if you have che inet rton function. */ 
Hdetine HAVE -NET PTON 1 


/* define if inet pton prototyps is in <arpa/inet.h> */ 
Hdsfine HAVE -NET PTON P3OTO 1 


/* Define if vou have the kevant function. */ 
Hde^ine WAVE KEVENT 1 
/* Define if you have che kqucuc function. */ 
Hlde^ine WAVE KQUKEIE 1 


/* Define if you have che nsl library (-1nslj. */ 
/* funde HAVE LIBNSL */ 


/* DeEine if you have -he pthread library /-lpthread). */ 
/* funde? HAVE LIBPTHRSA- */ 


/* Define if you have -he pthreads library (-lptzrsads). */ 
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£6 /* #undef HAVE LIDPTURBADS */ 


67 /* Define if you have the rssolv library (-lrzesolv), */ 
GO /* #undef HAVE LIBRESOLV */ 


by /* Define if you have the xti librsry {-lsxtil. */ 
70 /* &undef HSVE_LIBXTI */ 


ji f* Define if you have the nketemp function. */ 
72 #define HAVE MKSTEMP 1 


13 f* define i£ struct meghdr contains the neq control element */ 
74 #define HAVE MAIHDR MSN CCHTRO,, 1 


75 f* Define Lf you have the <netoonfig.h> header file. */ 
76 define HAVE NETCONFTG H 1 


77 f* Define it you have the <netdb.h> header file. */ 
78 éiefine HAVE NETTR H 1 


79 /* Define i.t you have the «netdir.L» header tile. */ 
BO /^ &undef HOVE METDIR H +/ 


Di /* Define if you have the «netinet/in.h- header file. */ 
82 define HAVE NETINZT IN H - 


03 /* Define if you have the «net/iE Sl.h> header file, */ 
84 #define HAVE NET IF DLH 1 


05 /* Define if you have the poll function. */ 
86 ddefine HAVE POLA 1 


87 /* Define if you have the «zoll.h» header file. */ 
By tdefine HAVE POL. H 1 


89 /* Define if you have the pselec= function. */ 
80 fdefine HAVE PSELECT 1 


g1 /* define if pselect prototype is in <sys/stat hs */ 
52 fdefine HAVE PSELECI PROTU 1 


91 /^? Define |f you have tle cpthread h> header five 47 
54 ¢define HAVE EIHREAD H 1 


a8 /^ Define if you have the «c-gnal b» header file. 4/ 
56 $define HAVE SIGNAL E 1 


87 /^ Define if you have tle sprintf functicn. ^f 
58 $definc HAVE ENPRINTF 1 


$9 /+ define iE snprintf prototype is in <stdio.h> 4/ 
10C #detine IlIÀAVE SNZRINIF PRCTO 1 


101 /* Sefine if enet/if dl.» defines struct sockacdr dl */ 
102 #deEine JAVE SOCKADDR DL STRUCT 1 


103 /* define if socket addrsss structures have lencth fields */ 
104 Bdefine HAVE SOCKADOR SA LEN 1 


ius /* Lefine if vou have the socka-msrk function. */ 
106 Rdefine HAVE SOCKATMARK 1 


10) /* define if eockatmark zrctotype ie in «seys/socket.a» */ 
10E #define HAVE SOCKATMARK FRCCO 1 
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/* Def-re if you have the csbd:5.hz header file. */ 
cetine HAVE STDIC 3 1 


/* Define if you have the <stdlib.h> header file, */ 
#2efine HAVE STDLIB H 1 


/* Define if you have the cstrirgs.h» header file. */ 
d2efine WAVE 3TRING3 H 1 


/* Defireé if you have the <string.h> header žile, */ 
Sefine HAVE STRING H 1 


/* Define if you have the «gtropcs.h» header file. */ 
/* dumdsl HAVE STROPTS H */ 


/* neF. ve iT i7r wta ts meatier of struct. ifreq. */ 


| &Sefine HAVE STRJCT IFREQ IFR MIU 1 
/* Define if the system has the type struct sockaddr storage. 


define HAVE STRICT SOCKADDR STORAGE 1 


/* Define if you have the -sys/svenc.h* header žile, */ 
#3efine HAVE 3Y83 FVENT H 1 


/* Define if you have the «sys/fi.io.h» header file. */ 
#icefine HAVE JYS FILIO dH 1 


/* Define if you have the «eyoc/ioctl.n» header Sile, t/ 
$Oefinwe HAVE SYS IOCTL H 1 


/* Define if yom have the esys/se sct hy header file. */ 
ücefine HAVE 3YS SELECT H 1 


/* Dsf:re i? you have the c-aya/socket.hz header file. */ 
Zetine HAVE SYS SOCKET H 1 


/* Define if you have the «oyo/cockio.h» header file. */ 
define HAVE SYS SOCKIS H 1 


/* Define if yeu have the «sys/stat.h> header file. */ 


: #define HAVE_3YS_STAT_E 1 


/* Detire at you have the 


ssys/sysctl.h> header file. "/ 
téefine HAVE SYS SYsCIL H 1 


/* Define if you have the <sys/tima.h> haada> file. */ 
define HAVE SYS TIME FH 1 


J Def re if you have the ecsays/types hi» header Tile. */ 
#ecfine HAVE 3Y5 TYPES H 1 


/* Define if you have the <says/uio.h> header file. */ 
faefine HAVE SYS UIQ H 1 


/* Define if you have che -sysg/vn.h* header žile. */ 
dXefine HAVE 3Y3 UM H 1 


/* Define i? you have the «sys/wa-L.h» heade- file. */ 


| #čefine HAVE SYS WALT t 1 


/* Define if «time.n» defines ctruct tinegpec */ 
P$lefinse HAVE TIMESPEC STRUCT 1 


[^ Defire if yeu have the ctime.h» header file. */ 
&define HAVE TIME H 1 
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/* Define if you have the <unistd.h> header file. */ 
define HAVE UNIETD H 1 


/* Define if ym have the vsnprintf function, */ 
define HAVE VSHERINIF 1 


/* Dre Mice if you hawe Lhe exti.l» header Cile. 4/ 
/* #ondef HAVE XTL H */ 

/* DwZiue if you have the «xti ingt.h» header Sile. 4/ 
/* #undef HAVE XTI INBT H */ 


/* Define if the system supports Ipva */ 
4define IPV4 二 


/* Define if the cyctem cusporte IPvo */ 
4define TPV6 = 
/* Dezine it the cyotem cusportc IPvi */ 
A4define IPy4 二 


/* Destine if the system suzpocta IPvGo */ 
fine TPvé - 


/* Dezine if the system suzpo-ta IP Multicest */ 
define MOAST 1 


- 


f* the size af the sa fewlly 
/* tundaf SA FAMILY T */ 


ie^3 in a socket address structure */ 


j> Devine if you have the ANST € header files. */ 


4 #detine STDC HEADERS 1 


/* Define if you can safely include both <sys/time.h> and <time.h>. */ 
define TIME WITE £Y£ TIME 1 


/* De?ine if the system surcpo-ts UIX domain sockets */ 
4define UNIXDOMAIN 1 


/* Detine if the eystem sucporte .NIX domain sockete */ 
define UNTXÓemain 1 


/* 16 bit signsd type */ 
A dundef int*s Lt af 


/* 32 bit sioned type */ 
/^ dundef int32 t #7 


/* the type of tke aa_ferily struct element */ 
/* $undaf sa family t */ 


/* unsigned integer type of the result of the sizecf operator */ 
/* $undof size_t */ 


/* a tyge appropriate for add-ess */ 
/* #undet cockler t */ 


/* define to ss family if sockaddr s-orage nas that inscesd cf ss fanily */ 
/* sundet ss tamily */ 


/* a signed tyre appropriate for a count of bytes cr an error indication */ 
/* #undef ssize t */ 


/* acalar type */ 
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196 


197 
1938 


199 
200 


201 
202 
203 
204 


édefine t scalar - int22 t 


/* unsigned scalar type */ 
$define t uscalar t uirt32 t 


/* 16 bit unsigned type */ 
/* Wund-cf uin-15 上 */ 


/* 32 bit unsigned type */ 
/* @undef uinz32 c hy 


/* -bit unsigned type */ 
/* #undsf uinz8 t */ 
sparctéjd-wiknowa-freebsds5, H'corfig.h 


图 D-2 FreeBSD 5.1 系 统 的 config,h 头 文件 
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D.3 标准 错误 处 理 函 数 


我 们 目 行 定义 了 一 组 用 于 贯穿 全 书 处 理 出 错 条 件 的 错误 处 理 函 数 。 
如 此 定义 和 使 用 这 组 错误 处 理 函 数 的 原因 是 我 们 可 以 如 下 所 示 使 用 一 行 
C 代 码 写 出 错误 处 理 过 程 : 


if (出 错 条 件 ) 
err_sys( 带 任意 数目 参数 的 printf 格 式 串 ) ; 














而 不 是 如 下 所 示 使 用 多 行 C 代 码 : 


if (出 错 条 件 ) ( 
char buff[200]; 
snprintf(buff，sizeof(buff)， 带 任意 数目 参数 的 printf 格 式 串 



































— 
-- 





perror(buff); 
exit(1); 


我 们 的 错误 处 理 函 数 使 用 ANSI “C 的 可 变 长 度 参数 列表 机 制 ， 有 基体 
细节 参见 [Kernighan and Ritchie 1988 ] 的 7.3 节 。 


图 D-3 列 出 了 各 个 错误 处 理 函 数 之 间 的 差异 。 如 果 全 局 整 
数 daemon_proc 不 为 0， 出 错 消 上 息 束 按 指 定 的 级 别传 递 给 syslog， 人 否则 出 
错 消 息 显 示 在 标准 错误 输出 上 。 











ES A strerror (errno)? 结束 语 何 | syslog 5l. 
err dump | 是 abort (); LOG ERR 
err mog [i return; LOG_INFO 
err quit a exití1); LOG ERR 
err ret 是 return; LOG INFO 
err Sys 是 exiti1); LOG ERR 



































图 D-3 ”标准 错误 处 理 函 数 汇总 


图 D-4 给 出 了 图 D-4 中 的 5 个 函数 。 








ww = 


^ 


finclude "unp.h" 


#include «stdarg.h» 


include 


int 


esysieg Ip 


daemon proc; 


/* BNSI C header file */ 


/^ for syslos() 4/ 


/* sec nonzero by daemon init() */ 


910 


libfervor.c 


static void err coiziint, int, const char *, va list); 


/* Nenfatal error related to system call 
* Print messsqae ard return */ 


void 
crrz rct (const char *fmt, ...! 
i 

va_list api 


va_start (ap, tmt]; 

err doit(1, LOG_INFO, tmt, ap): 
va sn3(ap); 

return: 


! 


‘* Fetel error relatec to system call 
* print meesace and terminate */ 
void 

err_eve(const char *fmt, ...) 


( 


và list ap; 


va start(ap, Int}; 

err doit(1, LOG ERR, fut, ap); 
va zn3(ap); 

exitill; 


! 


/* Patel e-ror relateé to system call 
+ Prinz meesSage, dump core, and terminate */ 


* ( 


void 
err Sunmp ‘conet crar *fmt, ...} 
va liez api 


va Start (ap, 701; 

err doit(1, LOG_ERR, fut, ap); 

va -nJ(ap); 

abort (}; /* durp core ard terminate ~/ 
exit (1t; /* shouldn't get here */ 


} 


/* Wonfatal error unrelated to system call 
* Print message and return */ 


void 
err_msg(ccnst char *fmt, ...) 


va_list £p; 


va_start (ap, mt); 
err duit (0, ToS 7NFO, fmt, ap): 
va enS(ap) : 


return; 


} 


/* Felel ezror uniela.el tc syslen call 
+ Prinz message and terminate */ 
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53 void 
54 err_quit [const char “frt, ...) 


55 
55 "và list ap; 

57 va start (ap, tmz); 

53 err doit(O, LOG_ERR, frt, ap); 
53 va endíap); 

63 exir(l); 

SI } 


62 /* Print meseage and return to caller 
63 * Caller specifies "erraoflag" and "level" */ 


64 statir void 

$5 arr doit [int errnoflag, int level, const char *fmt. va list ap) 
65 { 

€7 inz errno Save, n; 

68 char buffMAXLINE + 11; 


63 errnü save s ermo; /* value caller might want printed */ 
73 Hifdef HAVE VSNPRINIF 

71 vonprintt(butf, MAXLINE, Emt, a); /* sate */ 

72 Helse 

73 vsprintf (buf, fmt. ap’; /* not safe */ 

74 Hendit 

"5 n = gtrlen;zuf); 

75 if lerrrofilaq! 

77 srpriatfibu: ~ n, MAXLINE - n, ": às", s-rer-oríerroo save)!; 
78 strcat (buf, 'n"): 

78 if (daemon proc) [ 

82 sycloailevel, but); 

$1 } else { 

82 fflusnistdout!; /* in cass stdout anå stderr are the seme */ 
g3 fpurs (buf, scderr); 

81 ftfluenietderr) ; 

85 } 

85 rezum; 

a7? } 


hibverrore 











图 D-4 ”我 们 的 标准 错误 处 弄 
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附录 E fet >] A E 
第 1 章 
13 在 Solaris 上 我 们 得 到 


solaris % daytimetcpcli 127.0.0.1 
socket error: Protocol not supported 


要 找 出 有 关 这 个 错误 的 详细 信息 ， 我 们 首先 在 <sys/errno,.h> 头 文 
(EEE A FA grep tr t FF EB Protocol not supported. 


solaris % grep ‘Protocol not supported' /usr/include/sys/errno.h 
#define EPROTONOSUPPORT 120 /* Protocol not supported */ 


这 就 是 由 socket 返 回 的 errno 值 。 我 们 然后 查看 手册 页 面 : 


solaris % man socket 


大 多 数 手册 页 面 在 将 近 结 束 处 形 如 “Errors” 的 标题 下 给 出 这 个 错误 
的 额外 信息 ， 不 过 有 些 简洁 。 


14 我 们 把 第 一 个 声明 改 成 : 


Int sockfd, n, counter = 0; 


再 作为 while 循 环 的 第 一 个 语句 加 上 如 下 行 : 


counter++; 





最 后 在 结束 之 前 加 上 如 下 行 : 


printf("counter = %d\n", counter); 


所 显示 的 值 总 是 1。 
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1.5 我 们 声明 一 个 名 为 i 的 int 变 量 ， 再 把 write 调用 改 为 : 


for (i = 0; i < strlen(buff); i++) 
Write(connfd, &buff[i], 1); 


其 结果 随 客户 主机 和 服务 器 主机 而 定 。 如 果 客 户 和 服务 器 运行 在 同 
一 个 主机 上 ， 那 么 计数 器 值 通常 是 1， 意 味 着 尽管 服务 器 调用 了 26 
次 write， 所 写 出 数据 也 仅 由 客户 的 一 次 read 返 回 。 然 而 如 果 客 户 运 行 
在 Solaris 上 而 服务 器 运行 在 BSD/OS 3.0 上 ， 那 么 计数 器 值 通常 是 2-。 如 
果 监 视 以 太 网 上 的 分 组 ， 我 们 发 现 第 一 个 字符 自 成 一 个 分 组 发 送 ， 剩 余 
25 个 字符 包含 在 下 一 个 分 组 内 发 送 。 (我 们 在 7.9 节 就 Nagle 算 法 的 讨论 
解释 了 如 此 行为 的 原因 。) 相反 ， 如 果 客 户 运 行 在 BSD/OS 3.0 上 而 服务 
器 运行 在 Solaris ”2.5.1 上 ， 那 么 计数 器 值 是 26。 如 果 监 视 以 太 网 上 的 分 
组 ， 我 们 发 现 每 个 字符 自 成 一 个 分 组 发 送 。 


本 例子 的 目的 在 于 强调 不 同 的 TCP 对 数据 做 不 同 的 处 理 ， 我 们 的 应 
a 须 做 好 作为 字 市 流 读 入 这 些 数 据 的 准备 ， 直 到 遇 上 数据 流 末 
Eo 





第 2 章 


2.1 访问 http://www.iana.org/numbers.htm， 找 到 名 为 “IP ^ Version 
Number” 的 注册 处 ， 我 们 看 到 版 本 0 是 保留 的 ， 版 本 1 一 3 未 曾 分 配 ， 版 
本 5 是 网 际 网 流 协 议 internet Stream Protocol) 。 


22 ”所 有 RFC 都 可 以 通过 电子 邮件 、 匿 名 FTP 或 Web 人 免费 获取 。 起 
始点 之 一 是 http:/www .ietf.org。 明 录 ftp://ftp.isi.edu/in-notes 是 一 个 存放 
RFC 的 位 置 。 可 以 从 取得 当前 RFC 索 引 开 始 ， 它 通常 是 文件 rfc- 
index.txt 《也 可 以 取得 它 的 HTML 版 本 http://www.rfc-editor.org/rfc- 
index.html〉。 使 用 某 种 形式 的 编辑 器 搜索 RFC 索 引 〈 参 见 上 一 个 习题 的 
解答 ) 查找 “Stream” 一 词 ， 我 们 发 现 RFC 1819 定 义 了 网 际 网 流 协议 的 版 
无 论 何 时 查找 可 能 是 由 某 个 RFC 涵 盖 的 信息 ， 别 态 了 先 搜索 RFC 
ele 


23 对 于 IPv4 这 个 默认 值 产生 576 字 他 的 IP 数 据 报 (其 中 IPv4 首 部 
占用 20 字 节 ，TCP 首 部 占用 20 字 节 ， 剩 下 536 字 节 的 TCP 净 和 荷 ) ， 这 是 











IPv4 的 最 小 重组 缓冲 区 大 小 。 
2.4 本 例子 中 执行 主动 关闭 操作 的 是 服务 器 而 不 是 客户 。 


2.5 令 牌 环 网 上 的 主机 不 能 发 送 超过 1460 字 节 的 数据 ， 因 为 它 接 
收 到 的 MSS 是 1460。 以 太 网 上 的 主机 可 以 发 送 最 多 4096 字 节 的 数据 ， 但 
是 为 了 避免 分 片 ， 它 不 会 超过 外 出 接口 ( 即 以 太 网 ) HMTU. TCP ÝI 
cr ME d 
以 发 送 的 。 





2.6 Assigned Numbers 网 页 (http:/www.iana.org/numbers.htm ) 中 
的 “Protocol Numbers” 注 册 处 给 出 OSPF 的 协议 号 为 89。 


2.7 ”选择 性 确认 只 是 表明 由 选择 性 确认 消 轧 反映 的 序列 号 所 涵 兰 
的 数据 已 被 接收 ， 而 素 积 确认 表明 由 累积 确认 消 妃 中 的 序列 号 指示 的 所 
有 以 前 的 数据 部 已 被 接收 。 如 果 从 友 送 缓冲 区 中 基于 选择 性 确认 释放 数 
0 a a 
可 数据 。 
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3.2 ”指针 必须 按 所 读 或 所 写 的 字 节 数 增 长 ， 但 是 C 不 允许 void 指针 
如 此 增长 《因为 C 编 译 器 不 知道 void 指针 指 同 的 数据 类 型 ) 。 


第 4 章 
4.1 看 一 下 除 INADDRANY 〈 它 的 各 位 全 为 0) 和 INADDR_NONE《〈 它 的 
各 位 全 为 1) 外 以 INADDR 打 头 的 各 个 稼 值 的 定义 。 璧 如 说 D 类 多 播 地 


IM 


址 INADDR_MAX_LOCAL_GROoUP 的 定义 是 goxe0ggg0ff， 其 注释 是 “224.0.， 它 
显然 是 按 主 机 字 节 序 定 义 的 。 


42 ”下面 是 在 connect 调 用 之 后 新 添加 的 和 若干 行 : 


len = sizeof(cliaddr); 
Getsockname(sockfd, (SA *) &cliaddr, &len); 
printf("local addr: %s\n", 

Sock ntop((SA *) &cliaddr, len)); 


这 要 求 声 明 len 为 socklen_t 变 量 并 声明 cliaddr 为 struct 
sockaddr_in 变 量 。 注 意 getsockname 的 值 - 结 果 参 数 (Clen) 必须 在 调用 
之 前 初始 化 成 由 第 二 个 参数 所 指 同 变 量 的 大 小 。 涉 及 值 -结果 参数 的 最 
常见 编程 错误 就 是 态 记 了 这 样 的 初始 化 。 


43 子 进 程 调 用 close 时 引用 计数 从 2 递减 为 1， 因 此 不 会 癌 客 户 发 
送 FIN。 以 后 当 父 进程 调用 close 时 引用 计数 递减 为 0， 于 是 发 送 FIN。 


44 accept 返回 EINVAL， 因 为 它 的 第 一 个 参数 不 是 一 个 监听 套 接 字 
z% 


描述 符 。 


45 不 调用 bind 的 话 ，1isten 调 用 赋予 监听 套 接 字 一 个 临时 端口 。 











TRO 


5.1 TIME_WAIT 状 态 的 持续 时 间 应 该 在 1 分 钟 到 4 分 钟 之 间 ， 前 提 
是 MSL 在 30 秒 钟 到 2 分 钟 之 间 。 
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52 ”把 一 个 二 进 制 文 件 作为 客户 的 标准 输入 时 我 们 的 客户 /服务 器 
程序 并 不 工作 。 假 设 前 3 个 字 节 为 二 进 制 数 1、 二 进 制 数 0 和 一 个 换行 
符 。 图 5-5 中 fgets 调 用 最 多 读 入 MAxLINE-1 个 字符 ， 除 非 碰 到 换行 符 或 已 
到 达 文 件 尾 而 提前 返回 。 在 本 例子 中 它 将 读 入 前 3 个 字符 ， 然 后 以 一 个 
空 字 节 结束 竺 返回 的 字符 串 。 然 而 图 5-5 中 strlen 调 用 返回 的 是 1， 因 为 
它 只 计 到 第 一 个 空 字 节 。 客 户 于 是 只 把 第 一 个 字 节 发 送 给 服务 器 ， 导 致 
服务 器 阻塞 在 readline 调 用 上 ， 等 待 一 个 换行 符 。 客 户 也 阻塞 在 等 符 服 
务 器 的 应 答 上 。 这 就 是 所 谓 的 死 锁 〈deadlock) : 两 个 进程 都 阻塞 在 等 
待 因 对 方 原因 而 永远 不 会 到 达 的 事件 上 。 这 里 的 问题 是 fgets 以 一 个 空 
字 节 表征 所 返回 数据 的 结尾 ， 因 此 它 读 入 的 数据 不 能 含有 任何 空 字 节 。 


5.3 ”Telnet 把 输入 行 转换 成 NVT ASCH (TCPv1 的 26.4 节 ) ， 意 味 
AVCR (EHER) 后跟 LF( 换 行 符 〉 的 双 字 节 序 列 终 止 每 一 行 。 而 我 
们 的 客户 程序 只 加 一 个 换行 符 。 尽 管 如 此 ， 我 们 仍然 可 以 使 用 Telnet 客 

















户 与 我 们 的 服务 器 通信 ， 因 为 我 们 的 服务 器 回 射 每 个 字符 ， 包 括 每 个 换 
行 符 之 前 的 回 车 符 。 


5.4 ”连接 终止 序列 的 最 后 两 个 分 节 并 不 发 送 。 我 们 杀 挥 服务 器 子 
进程 之 后 (在 客户 输入 “another linet) ， 客 户 向 服务 器 发 送 数 据 导 
致 服务 器 TCP 响 应 以 一 个 RST。 这 个 RST 使 得 连接 中 止 ， 并 防止 连接 的 
服务 器 端 〈 执 行 主动 关闭 的 那 一 端 ) 经 历 TIME_WAIT 状 态 。 


55 没有 什么 变化 ， 因 为 在 服务 器 主机 上 新 启动 的 服务 器 进程 创 
建 一 个 监听 套 接 字 就 等 待 新 的 连接 请 求 的 到 达 。 我 们 在 步骤 3 发 送 的 是 
需 进 入 某 个 ESTABLISHED 状 态 TCP 连 接 的 数据 分 节 ， 而 新 启动 的 服务 
器 在 其 监听 套 接 字 上 绝 看 不 到 这 些 数 据 分 节 ， 因 此 服务 器 主机 的 TCP 对 
它们 的 响应 仍然 是 RST。 


5.6 ”图 E-1 给 出 了 这 个 程序 。 在 Solaris 上 运行 它 产生 如 下 输出 : 


- - - topeliserwisigpipe.c 
1 #include "up. hi" 


2 void 

3 aig pipe(int signo) 

4 

5 printz("SICPIPE recseived\n") ; 
5 rel iuri 

7} 

B int 


5 wainlint &-gc, char vwargv) 
10 | 


11 int eocktd; 

12 struct sockaddr in servacddr; 

13 it (azoo iz 2] 

14 rr quit('usage: tepeli «IPaddress»*): 

15 BOckfG = Socket (AF INET, SOCK STREAM, 0); 

16 bzero(&ssrvaddr, sizeof iservaðdri ) ; 

17 servedcr.sin_ family = AP INET; 

18 serveder.sin port = hrons(1; /* daytime server */ 
19 Inez pton(AF INET, arqvii],. &servaddr.sin addr); 

20 Signal (SIGPIFE, sig pipe!; 

21 Conngectí(so-kfd, (SA *) &se-vaddr, sizeof iservaddr!): 
22 sleep(2;; 

23 Wricc(sockfd, "hello", Si; 

24 sleep (2! ; 

25 Writme(wockfd, "world", 517; 

26 exi-i0): 

2? ] 


Iopclisemv/tsigpipe.c 


图 E-1 产生 sIGPIPE 


solaris % tsigpipe 192.168.1.10 
SIGPIPE received 
write error: Broken pipe 


第 一 个 2 秒 钟 的 sleep 用 于 让 daytime 服 务 器 发 送 应 答 并 关闭 它 的 连接 
所 在 端 。 第 一 个 write 导致 发 送 一 个 数据 分 节 到 服务 器 ， 服 务 器 则 啊 应 
以 RST〔 因 为 daytime 服 务 器 已 经 完全 关闭 了 它 的 套 接 字 ) 。 注 意 TCP 人 多 
许 我 们 继续 写 出 到 一 个 已 收 到 FIN 的 套 接 字 。 第 二 个 sleep 让 客户 接收 到 
服务 器 的 RST， 于 是 第 二 个 write 引发 SIGPIPE 信 和 号。 既然 信号 处 理 函 数 
返回 主 控制 流 ，write 于 是 返回 一 个 EPIPE 的 错误 。 


5.7. ”假设 服务 器 主机 文 持 弱 端 系统 模型 《weak end system model, 
在 8.8 节 讲解 ) ， 那 么 一 切 正 常 。 也 就 是 说 即使 目的 卫 地 址 是 右 端 数据 链 
路 的 耳 地 址 ， 服 务 器 主机 也 会 接受 到 达 左 端 数据 链 路 的 外 来 耻 数 据 报 
(本 例子 中 它 承载 一 个 TCP 分 节 ) 。 我 们 可 以 如 下 测试 这 一 点 : 在 主 
机 Linux (1-16) 上 运行 服务 器 ， 然 后 在 主机 solaris 上 局 动 客户 ， 不 
过 给 客户 指定 的 是 服务 器 主机 的 男 一 个 IP 地 址 (206.168.112.96) 。 连 接 
建立 之 后 如 果 在 服务 器 主机 上 运行 netstat， 我 们 将 看 到 该 连接 的 本 地 
IP 地 址 是 来 自 客户 SYN 的 目的 IP 地 址 ， 而 不 是 SYN 到 达 数 据 链 路 的 IP 地 
址 〈 这 跟 我 们 在 4.4 节 提 及 的 一 样 ) 。 


5.8 我 们 的 客户 运行 在 小 端 字 节 序 的 Intel 系 统 上 ， 那 儿 32 位 整数 值 
1 按 图 E-2 所 示 格 式 存放 。 








Hitt: A43 — A42 A+ A 
图 E-2 32 位 整数 值 1 的 小 端 字 节 序 格式 表示 


916~917 


这 4 个 字 节 按 A、A+1、A+2 和 A+3 的 顺序 通过 套 接 字 发 送 ， 然 后 以 
如 图 E-3 所 示 的 大 站 字 节 序 格式 存放 。 











e 
H 


A A+] A+2 A+t+3 


图 E-3 ”来自 图 E-2 的 32 位 整数 以 大 端 字 节 序 格式 表示 


值 ox61666666 束 是 16777216。 类 似 地 ， 由 客户 发 送 的 整数 2 将 被 服 
务 器 解释 成 ex026066666 即 33554432。 这 两 个 整数 的 和 是 50331648 
即 gx93000000。 服 务 器 把 这 个 大 端 字 节 序 值 发 送 给 客户 后 ， 客 户 把 它 解 
释 成 整数 3。 


然而 32 位 整数 值 -22 在 小 症 字 节 序 系统 上 如 图 E-4 表 示 ， 及 用 的 是 负 
数 的 二 进 制 补 码 表示 。 


ee [De Te 
A+3 At+2 Ati A 


图 E-4 32 位 整数 值 -22 的 小 端 字 节 序 格式 表示 


它 在 大 端 字 节 序 服务 器 主机 上 被 解释 成 exeaffffff 即 -352321537。 
类 似 地 ，-77 的 小 端 字 节 序 表示 是 oxffffffbp3， 但 是 在 大 端 字 节 序 服务 器 
主机 上 却 表示 成 gexb3ffffff 即 -1275068417。 服 务 器 上 的 这 两 个 整数 相 加 
的 结果 是 ox9effffe 即 -1627389954。 这 个 大 端 字 节 序 的 值 通过 套 接 字 发 
送 给 客户 后 以 小 端 字 节 序 解释 的 值 是 oxfeffff9e 即 -16777314， 它 就 是 我 
们 的 例子 所 显示 的 值 。 


5.9 ”技术 路 线 是 正确 的 (把 二 进 制 值 转换 成 网 络 字 节 序 表示 ) ， 
但 是 不 能 使 用 hton1 和 ntoh1 这 两 个 函数 。 尽 管 这 两 个 函数 中 的 ] 曾 经 表 
m “long” (长 整数 ) ， 它 们 却 只 是 操作 在 32 位 整数 上 (3.4 30 。64 位 系 
统 上 一 个 长 整数 可 能 占据 64 位 ， 这 两 个 函数 就 不 能 正确 工作 了 。 有 人 也 
许 定 义 hton64 和 ntoh64 这 两 个 函数 来 解决 本 问题 ， 但 是 它们 在 使 用 32 位 
表示 长 整数 的 系统 上 又 不 能 工作 。 





























5.10 第 一 种 情形 下 服务 器 将 永远 阻塞 在 图 5-20 的 readn 中 ， 因 为 客 
户 发 送 的 是 2 个 32 位 值 ， 但 是 服务 器 等 竺 的 却 是 2 个 64 位 值 。 这 两 个 主机 
之 间 对 换 客 户 和 服务 器 将 导致 客户 发 送 2 个 64 位 值 ， 但 是 服务 器 只 读 入 
第 一 个 64 位 ， 并 把 它 解释 成 2 个 32 位 值 。 第 二 个 64 位 值 仍 然 在 服务 器 的 
套 接 字 接收 缓冲 区 中 。 服 务 器 往 回 写 出 1 个 32 位 值 ， 但 是 客户 却 仍然 永 
远 阻 塞 在 图 5-19 的 readn 中 ， 等 待 读 入 1 个 64 位 值 。 


5.11 IP 路 由 功能 查看 目的 IP 地 址 (服务 器 主机 的 IP 地 址 ) ， 搜 索 
路 由 表 确 定 外 出 接口 和 下 一 跳 (TCPv1 第 9 章 ) 。 外 出 接口 的 主 卫 地 址 
用 作 源 IP 地 址 ， 前 提 是 该 套 接 字 尚 未 绑 定 某 个 本 地 IP 地 址 。 
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, 61 这 个 整数 数组 包含 在 一 个 结构 中 ， 而 C 是 允许 结构 跨 等 写 赋 值 
Js 





62 llWÉselectt VEL AT RBEEupE. BETI RIS R K 
束 有 8192 字 节 的 可 用 空间 ， 但 是 当 我 们 以 8193 字 节 的 缓冲 区 长 度 对 这 个 
阻塞 式 套 接 字 调用 write 时 ，write 将 会 阻塞 ， 等 竺 最 后 1 个 字 节 的 可 用 
空间 。 对 阻塞 式 套 接 字 的 读 操 作 只 要 有 数据 总 会 返回 一 个 不 足 计 数 
(short count) ， 然 而 对 阻 堵 式 套 接 字 的 写 操作 将 一 直 阻 塞 到 所 有 数据 
都 能 被 内 核 接受 为 止 。 可 见 当 使 用 select 测 试 某 个 套 接 字 的 可 写 条 件 
时 ， 我 们 必须 把 该 套 接 字 预 先 设 置 成 非 阻塞 以 避免 阻 守 。 


63 ”如 果 两 个 描述 符 都 可 读 ， 那 么 只 执行 第 一 个 测试 ， 它 测试 的 
是 套 接 字 描 述 符 。 不 过 这 么 做 并 没有 导致 客户 程序 不 能 工作 ， 它 只 是 降 
低 了 效率 而 已 。 这 就 是 说 ， 如 果 select 返 回 值 表明 两 个 描述 符 均 可 读 ， 
那么 第 一 个 诈 语 句 为 真 ， 导 致 客户 从 套 接 字 readline 并 fputs 到 标准 输 
出 。 下 一 个 if 语 句 却 被 跳 过 (就 因为 我 们 在 这 个 if 关 键 词 之 前 所 冠 的 
else 关 键 词 ) ， 不 过 select 接 着 再 次 被 调用 ， 它 马上 发 现 标 准 输入 可 
读 ， 于 是 立即 返回 。 这 里 的 关键 概念 是 清除 “标准 输入 可 读 ? 条 件 的 不 
是 select 的 返回 ， 而 是 从 标准 输入 真正 地 读 入 。 


6.4 ”使 用 getrlLimit 函 数 取 得 RLIMIT_NOFILE 资 源 的 当前 值 ， 然 后 调 
用 setrlimit 把 当前 软 限制 Crlim cur) 设置 成 硬 限 制 (rlim max) 。 举 
例 来 说 ，Solaris ”2.5 上 描述 符 数 目的 软 限制 是 64， 但 是 任何 进程 都 可 以 


























把 它 增 长 到 默认 的 硬 限制 1024。 


getrlimit 和 setrlimit 不 属于 POSIX.1， 但 是 在 Unix 98 中 却 是 必需 
的 。 


i 655 IRI AMH RETER EA PURUS. AP TCP MVR PI E 
I]. 


6.6 ”以 参数 SHuT_RDWR 或 SHuT_WR 调 用 shutdown 总 是 发 送 FIN， 
而 close 只 在 调用 时 摘 述 符 引 用 计数 为 1 的 条 件 下 才 发 送 FIN。 


6.7 ” read 返回 一 个 错误 ， 我 们 的 Read 包 于 函 数 于 是 终止 服务 器 。 服 
务 吉 不 应 该 如 此 脆弱 。 注 意 我 们 在 图 6-26 中 处 理 了 这 种 情况 ， 尽 管 即便 
这 样 的 代码 还 是 不 够 健壮 。 考 虑 客户 和 服务 右 之 间 形 失 连 接 的 情况 ， 服 
务 器 某 个 响应 的 发 送 尝试 最 终 发 生 超时 ， 返 回 的 错误 可 能 


是 ETIMEDOUT。 


通常 服务 器 不 应 该 因为 这 样 的 原因 而 中 止 。 它 应 该 登记 错误 ， 关 闭 
出 错 套 接 字 ， 并 继续 服务 其 他 客户 。 对 于 像 这 样 由 单个 进程 来 应 付 所 有 
客户 的 服务 器 来 说 ， 简 单 中 止 的 错误 处 理 方式 是 难以 接受 的 。 然 而 如 果 
服务 器 是 由 一 个 子 进程 来 应 付 仅 仅 一 个 客户 ， 那 么 中 止 菜 个 子 进程 并 不 
会 影响 父 进 程 〈 我 们 假定 它 处 理 所 有 的 新 连接 并 派生 子 进程 》 和 服务 其 
他 客户 的 任何 其 他 子 进程 。 
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7.2 图 E-5 给 出 了 本 习题 的 解答 之 一 。 我 们 去 掉 了 用 于 显示 由 服务 
融 返 回 的 数据 串 的 那些 语句 ， 因 为 本 例子 用 不 独 这 些 值 。 





sackopt/rcvbuj.c 


1 H-uclude "ur:p. hi" 

2 #include -netinet/tcp.h> /* for TCF MAXSES */ 

3 int 

4 main(int ezgc, char **argv) 

51 

6 int sockfd, rcvbuf,., mss; 

7 gccklen t ler; 

B struacz sockacdr in  servacdr, 

9 if (argc f= 2} 

10 err zuit("usage: rcvbuf «IPaddress-"): 

1i scektd = Sockct (AF INET, SOCK STREAM, 0); 

12 len = sisco= (revsuf); 

13 GeLsockop.(suckfd, SCL SOCKET, SO_RCVBUF, ércvbul, &len); 
14 len = sizeo= (mss) ; 

15 Getsockoptiecckiad, IEPHRUTU TCP, ‘SUP MAXSEG, &mse, Siem); 
16 printf|'defaults: SO_RCVBUP = $a, M&S = %d\n", rcvzuf, mas); 
1" bzero(&servacdr, sizeofise-vad3dr!); 

18 servadd-.sin fsmily = AF INET; 

19 sorvaddr.cin port = atono!ls;; [* daytime cerver */ 
20 Inet_pton(AP_INET, argvl[il, &servadidr.sin adi-) 

21 Connect (sockld, (SA *) &€servadde, sizeoliservadidr)) ; 

22 len = sizeo*(ro-cv-uf); 

23 Getzockopc(eccktd, SCL SOCKET, SO RCVBUF, &rcvruf, &len): 
24 len = sizeoz(msa); 

25 Getsockop-(sockfd, IPPROTO TCP, ^7CP MAXSEG, &mss, Sen); 
26 prinrtfi'afrer comnact: SO_RCVBUF = &d, MSS = $¢\n", revouf, mes); 
ay exitíJ): 

28 : 


sockopt/rcvbrjc 


图 E-5 在 连接 建立 前 后 显示 套 接 字 接 收 缓冲 区 大 小 和 MSS 值 


首先 声明 这 个 程序 没有 “唯一 正确 ”的 输出 ， 其 结果 随 系 统 而 变化 。 
有 些 系 统 〈 尤 如 Solaris ”及 更 早 版 本 ) 总 是 返回 0 值 的 套 接 字 缓冲 区 大 
小 ， 使 得 我 们 无 法 查看 该 值 在 连接 前 后 有 什么 事 发 生 。 


至 于 MSS， 在 connect 之 前 显示 的 值 是 实现 的 默认 值 (通常 是 536 或 
512) ， 在 connect 之 后 显示 的 值 则 取决 于 可 能 有 的 来 自 对 端的 MSS 选 
项 。 举 例 来 说 ， 本 地 以 太 网 上 connect 之 后 的 值 可 能 是 1460。 然 
而 connect 某 个 远程 网 络 上 的 一 个 服务 器 主机 之 后 显示 的 MSS 值 可 能 类 
似 默 认 值 ， 除 非 你 的 系统 支持 路 径 MTU 发 现 功能 。 如 果 可 能 的 话 ， 在 
程序 运行 期 间 运行 一 个 像 tcpdump 〈C.5 节 ) 这 样 的 工具 ， 以 查看 来 自 对 
端的 SYN 分 节 中 的 真正 MSS 选 项 。 


全 于 套 接 字 接 收 缓冲 区 的 大 小 ， 许 多 实现 在 连接 建立 之 后 把 它 癌 上 
舍 入 成 MSS 的 倍数 。 查 看 连接 建立 之 后 套 接 字 接收 缓冲 区 大 小 的 男 一 个 


























方法 是 使 用 像 tcpdump 这 样 的 工具 监视 分 组 ， 观 察 TCP 的 通告 窗口 


(Cadvertised window) 。 


73 分配 一 个 名 为 1ing 的 LIinger 结 构 并 如 下 初始 化 它 : 
str cli(stdin, sockfd); 

ling.l onoff - 1; 

ling.l linger - 0; 

Setsockopt(sockfd, SOL SOCKET, SO LINGER, &ling, sizeof(ling)); 


exit(0); 


这 应 该 使 得 客户 TCP 以 一 个 RST 而 不 是 正常 的 4 分 ) 节 交换 终止 连接 。 
服务 器 子 进程 的 readline 调 用 返回 EcoNNRESET 错 误 ， 所 显示 的 消息 如 
下 : 


readline error: Connection reset by peer 


尽管 执行 主动 关闭 的 是 客户 ， 它 也 不 应 该 经 历 TIME_WAIT 状 态 。 


7.4 第 一 个 客户 调用 setsockopt、 cu Mr 如 采 第 二 个 客 
户 在 第 W a ee on 它 将 返回 
EADDRINUSE 错 误 。 然 而 一 旦 委 本 
bind 就 正常 工作 ， 因 为 第 一 个 客户 的 套 接 字 当 时 处 于 已 连接 状态 。 处 理 
这 种 竞争 状态 的 唯一 办 法 是 让 第 二 个 客户 在 bind 调 用 返回 EADDRINUSE 错 
误 的 情况 下 再 尝试 调用 bind 多 次 ， 而 不 是 一 返回 该 错误 就 放弃 。 


75 ”我 们 在 支持 多 播 的 一 个 主机 (MacOS X ) 上 运行 这 个 程序 













































































macosx % sock -s 9999 & 以 通 配 地 址 启动 第 一 个 服务 器 
[1] 29297 

macosx % sock -s 172.24.37.78 9999 不 使 用 -A 尝试 启动 第 二 个 服务 器 
can’ t bind local address: Address already in use 

macosx % sock -s -A 172.24.37.78 9999 & 使 用 -A 再 次 尝试 ， 成 功 

[2] 29699 

macosx % sock -s -A 127.0.0.1 9999 & 使 用 -A 启动 第 三 个 服务 器 ， 成 功 
[3] 29700 

macosx % netstat -na | grep 9999 

tcp4 0 6 127.0.0.1.9999 Auk LISTEN 

tcp4 0 6 172.24.37.78.9999 * os LISTEN 


tcp4 9 0 *.9999 =e LISTEN 
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7.6 ”我 们 首先 在 支持 多 播 但 不 支持 so_REUSEPORT 选 项 的 一 个 主机 
(Solaris 9) 上 尝试 包 。 








solaris % sock -s -u 8888 & 第 一 个 服务 器 启动 
[1] 24051 

solaris % sock -s -u 8888 

can' t bind local address: Address already in use 












































solaris % sock -s -u -A 8888 & 使 用 -A 启动 第 二 个 服务 器 成功 
solaris % netstat -na | grep 8888 我 们 看 到 重复 的 捆绑 

*.8888 Idle 

*.8888 Idle 


这 个 系统 上 第 一 个 bpind 不 必 指 定 so_REUSEADDR， 但 是 第 二 个 起 必须 
指定 。 


最 后 我 们 在 既 支持 多 播 又 支持 So_REUSEPORT 选 项 的 MacOS X 上 进行 
尝试 。 我 们 首先 给 一 前 一 后 两 个 服务 器 尝试 So_REUSEADDR 选 项 ， 但 是 它 
不 起 作用 。 


macosx % sock -u -s -A 7777 & 

[1] 17610 

macosx % sock -u -s -A 7777 

can't bind local address: Address already in use 





接着 只 给 第 二 个 服务 器 而 不 给 第 一 个 服务 器 尝试 So0_REUSEPORT 选 
项 。 这 也 不 起 作用 ， 因 为 完全 重复 的 捆绑 要 求 共 享 同一 捆绑 的 所 有 套 接 
字 都 使 用 该 选项 。 

macosx % sock -u -s 8888 & 

[1] 17612 


macosx % sock -u -s -T 8888 
can't bind local address: Address already in use 





最 后 给 两 个 服务 器 都 指定 so_REUSEPORT 选 项 ， 这 是 起 作用 的 。 


macosx % sock -u -s -T 9999 & 


[1] 17614 

macosx % sock -u -s -T 9999 & 

[2] 17615 

macosx % netstat -na | grep 9999 

udp4 0 0 * 9999 Tu 


udp4 9 0 *,9999 rn 


7.7 ČEH, A Aping (ti HICMPE +, Mso pEBUG 
接 字 选 项 只 影响 TCP 套 接 字 。so_DpEBuG 套 接 字 选项 的 描述 一 直 有 些 笼 
通 ， 壁 如 说 “这 个 选项 开启 相应 协议 层 中 的 调试 ?， 但 是 实现 该 选项 的 唯 
一 协议 层 一 直 只 是 TCP。 
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7.8 图 E-6 给 出 了 时 间 线 。 


» RTT 


延迟 了 有 的 ACK 


la 务 器 处 有 








图 E-6 Nagle 算 法 与 延 滞 ACK 的 交互 情况 


7.9 设置 TcP_NODELAY 套 接 字 选 项 导致 来 自 第 二 个 write 的 数据 被 立 
即 发 送 ， 即 使 该 连接 上 还 有 一 个 尚未 得 到 确认 的 小 分 组 。 这 种 情况 如 图 
E-7 所 示 。 本 例子 中 总 时 间 只 稍微 超过 150 ms。 
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图 E-7 通过 设置 Tcp_NODELAY 套 接 字 选项 避免 Nagle 算 法 


740 ”这 种 办 法 的 优点 是 减少 了 分 组 的 个 数 ， 如 图 E-8 所 示 。 














4005. 
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图 E-8 使 用 writev 代 替 设 置 TcP_NoDELAY 套 接 字 选 项 


7.11 4.2.3.2 节 声称 “ 延 滞 必须 低 于 0.5 秒 钟 ， 而 且 在 完全 大 小 分 节 流 
上 至 少 每 隔 一 个 分 节 就 应 该 有 一 个 ACK”。 源 自 Berkeley 的 实现 延 清 
ACK 最 久 200ms (TCPvV2 第 821 页 ) 。 
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742 图 5-2 中 的 服务 器 父 进 程 大 部 分 时 间 花 在 阻塞 于 accept 调 用 
中 ， 图 5-3 中 的 子 进程 则 大 部 分 时 间 花 在 阻塞 于 read 调 用 中 ， 它 是 
由 readline 调 用 的 。 保 持 存 活 选 项 对 于 监听 套 接 字 不 起 作用 ， 因 此 父 进 
程 不 受 客户 主机 月 尝 影响 。 子 进程 的 read 将 返回 ETIMEDOUT 错 误 ， 它 在 
跨 连 接 的 最 后 一 次 数据 交换 之 后 约 2 小 时 发 生 。 


743 图 5-5 中 的 客户 大 部 分 时 间 花 在 阻塞 于 fgets 调 用 中 ，fgets 本 
身 则 阻塞 在 标准 IO 函数 库 中 对 于 标准 输入 某 种 类 型 的 读 操作 中 。 当 跨 
连接 的 最 后 一 次 数据 交换 之 后 约 2 小 时 保持 存活 定时 器 超时 并 且 所 有 保 
持 存 活 侦探 分 组 都 没有 诱发 来 自 服 务 器 的 响应 时 ， 套 接 字 的 待 处 理 错误 
被 设置 成 ETIMED0UT。 然 而 客户 阻塞 在 对 于 标准 输入 的 fgets 调 用 中 ， 
此 看 不 到 这 个 错误 ， 直 到 对 于 套 接 字 执行 读 或 写 操 作 。 这 就 是 我 们 在 第 
6 章 把 图 5-5 改 成 使 用 select 的 原因 之 一 。 


7.14 客户 大 部 分 时 间 花 在 阻塞 于 select 调 用 中 ， 一 旦 待 处 理 错 误 
被 设置 成 ETIMEDOUT 〈 如 上 一 题 的 解答 所 述 ) ，select 束 立即 返回 套 接 字 
的 可 读 条 件 。 


7.15 ”只 交换 2 个 而 不 是 4 个 TCP 分 市。 两 个 系统 的 定时 器 精确 同步 
的 可 能 性 非常 低 ; 因此 一 端的 保持 存活 定时 器 会 比 为 一 端 略 早 一 反超 
时 。 首 先 超 时 的 那 一 端 发 送 保持 存活 侦探 分 组 ， 导 致 号 一 端 确 认 这 个 分 
on eal 探 分 组 的 接收 导致 时 钟 略 慢 的 主机 把 保持 存活 定时 
2 小 时 。 


7.16 “最初 的 套 接 字 API 并 没有 1listen 函 数 。 相 反 ，socket 函 数 的 第 
四 个 参数 含有 套 接 字 选 项 ， 而 so_AccEPTcoN 就 是 用 来 指定 监听 套 接 字 
的 。 加 了 1listen 函 数 后 ， 这 个 选项 还 是 保留 着 ， 不 过 现在 只 是 由 内 核 来 
设置 CTCPv2 第 456 页 ) 。 
































第 8 草 


8.1 是 的 。read 返 回 4096 字 节 的 数据 ，recvfrom 则 返回 2048 字 节 
(2 个 数据 报 中 的 第 一 个 ) 。 不 管 应 用 请 求 多 大 ，recvfrom 决 不 会 返回 
多 于 1 个 数据 报 的 数据 。 


8.2 ”如 果 协 议 使 用 可 变 长 度 套 接 字 地 址 结构 ，clilen 很 可 能 太 大 。 
我 们 将 在 第 15 章 看 到 这 对 于 Unix 域 套 接 字 地 址 结构 是 可 以 接受 的 ， 不 过 
正确 编写 这 个 函数 的 方式 是 把 由 recvfrom 返 回 的 真正 长 度 用 作 sendto 的 








长 度 。 
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8.4 像 这 样 运行 bing 是 碍 看 由 运行 ping 的 主机 接收 到 的 ICMP 消 奶 
的 徐 易 方法 。 我 们 把 分 组 发 送 频 率 由 通 冲 的 每 秒 钟 1 次 降低 到 每 60 秒 钟 1 
次 以 减少 输出 量 。 如 果 我 们 在 主机 aix 上 运行 我 们 的 UDP 客 户 程序 ， 所 
指定 的 服务 器 下 地 址 为 192.168.42.1， 同 时 运行 ping 程 序 ， 就 会 得 到 如 下 
输出 (注意 即使 指定 -v 选 项 ， 也 并 非 所 有 ping 客 户 程 序 都 显示 所 接收 到 
的 ICMP 错 误 ) : 

aix % ping -v -i 60 127.0.0.1 

127.0.0.1: (127.0.0.1): 56 data bytes 

64 bytes from 127.0.0.1: icmp seq-0 ttl-255 time=0 ms 

36 bytes from 192.168.42.1: Destination Port Unreachable 

Vr HL TOS Len ID Flg off TTL Pro cks Src Dst Data 


4 5 00 0022 0007 © 0000 1e 11 c770 192.168.42.2 192.168.42.1 
UDP: from port 40645, to port 9877 (decimal) 


85 ”监听 TCP 套 接 字 也 许 有 一 个 套 接 字 接收 缓冲 区 大 小 ， 但 是 它 绝 
不 会 接受 数据 。 大 多 数 实现 并 不 预先 给 套 接 字 发 送 缓冲 区 或 接收 缓冲 区 
分 配 内 存 空间 。 使 用 so_sNDBUF 和 so_RCVBUF 套 接 字 选 项 指定 的 套 接 字 缓 
冲 区 大 小 仅仅 是 给 套 接 字 设 定 的 上 限 。 


8.6 ”我 们 在 多 宿主 机 freebsd 上 指定 -u 选 项 〈 使 用 UDP) 和 -1 选项 
(指定 本 地 IP 地 址 和 端口 ) 运行 sock 程 序 。 


freebsd % sock -u -1 12.106.32.254.4444 192.168.42.2 8888 
hello 





本 地 卫 地 址 在 图 1-16 中 是 主机 freebsd 的 因特网 侧 接口 ， 但 是 数据 报 
要 到 达 目 的 地 则 必须 从 另 一 个 接口 出 去 。 饼 使 用 tcpdump 监 视 网 络 表明 源 
IP 地 址 确实 是 由 客户 绑 定 的 那个 地 址 ， 而 不 是 外 出 接口 的 地 址 。 


14:28:29.614846 12.106.32.254.4444 > 192.168.42.2.8888: udp 6 
14:28:29.615225 192.168.42.2 » 12.106.32.254: icmp: 192.168.42.2 
udp port 8888 unreachable 


8. ”在 客户 程序 中 放 一 个 printf 调 用 会 在 每 个 数据 报 之 间 引 入 一 个 
延迟 ， 从 而 允许 服务 器 接收 更 多 的 数据 报 。 在 服务 器 程序 中 放 一 


个 printf 调 用 则 会 导致 服务 器 丢失 更 多 数据 报 o 


8.8 IPv4 数 据 报 最 大 为 65535 字 节 ， 这 由 图 A-1 中 16 位 的 总 长 度 字 段 
限定 。IPv4 首 部 需要 20 字 节 ，UDP 首 部 需要 8 字 节 ， 留 给 UDP 用 户 数据 
最 大 65507 字 节 。 对 于 没有 任何 扩展 首部 的 IPv6 数 据 报 而 言 〈 自 然 没 有 
特大 报 支 持 ， 因 为 特大 净 荷 长 度 是 一 个 步 跳 选项 ， 出 现在 步 跳 选项 扩展 
首部 中 ) ， 扣 除 IPV6 首 部 的 净 集 最 大 为 65535 字 节 (AIA-2) ， 再 扣除 8 
字 节 UDP 首部 ， 留 给 UDP 用 户 数据 最 大 65527 字 节 。 鱼 
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图 E-9 给 出 了 dg_cl1i 函 数 的 新 版 本 。 如 果 没 有 预先 设置 发 送 缓冲 区 
大 小 ， 源 自 Berkeley 的 内 核 就 给 sendto 调 用 返回 EMs6sIzE 错 误 ， 因 为 套 
接 字 发 送 绥 冲 区 的 默认 大 小 通 沼 不 足以 暂 存 最 大 的 UDP 数 据 报 〈 先 做 完 
习题 7.1) 。 然 而 如 果 我 们 运行 如 图 E-9 所 示 客 户 程序 ， 先 设置 客户 套 接 
字 绥 冲 区 大 小 再 发 送 和 接收 UDP 数据 报 ， 那 么 服务 器 不 返 送 任何 数据 
报 。 我 们 可 以 运行 tcpdump 验 证 客户 的 数据 报 发 送 到 了 服务 器 上 ， 但 是 
如 果 在 服务 器 程序 中 放 一 个 printf 调 用 ， 我 们 融 发 现 它 的 recvfrom 调 用 
并 没有 返回 这 个 数据 报 。 问 题 出 在 服务 器 的 UDP 套 接 字 接收 缓冲 区 小 于 
我 们 发 送 的 数据 报 ， 因 此 该 数据 报 被 丢弃 挥 而 不 是 被 递送 到 套 接 字 。 在 
FreeBSD 系 统 上 我 们 可 通过 运行 netstat ”-s 命 令 ， 并 查看 接收 这 个 大 数 
据 报 前 后 “dropped due to full socket buffers" (HERP DC TI E 
F) 计数 器 值 的 变化 加 以 验证 。 最 终 的 办 法 就 是 修改 服务 器 程序 ， 预 先 
设置 它 的 套 接 字 发 送 缓冲 区 与 接收 缓冲 区 的 大 小 。 





udpclisenwagciibig.c 





1 #include "unp.h* 


2 funzet MAXLINE 
3 er lef jr MAXLINE 55507 


4 void 
5 dg cli[FILE *fp, int sockfd, const SA *pservaddr, sockler t servlen) 
= i cx 一 


E 

7 int size; 

A cha: sernmdline[MAXLINR., recvline[MAXLTNRE + 1]; 

5 ssize t n; 

) size = 70020; 
11 Setsockopt (sockfd, SOL SOCKET, 30 SNDBUP, &size, sizeofisize') 
2 Setsockopt (socefd, SOL SOCKET, SO RCVBUF, &síza, sizeofisize)); 
13 Sendto(sockfd, sendline, MAXLINZ, 0, pservadcr, servlen); 
14 n = Reevtrem(ccektd, recviirnc, MAXLINE, C, NULL, NULL); 
15 print? (*received td bytes\n", n); 


udpeliservaaciibig.c 


图 E-9 写 出 最 大 的 UDP/IPv4 数 据 报 


大 多 数 网 络 上 65535 字 节 的 卫 数 据 报 需要 分 片 。 回 顾 2.11 节 ， 我 们 知 
道 IP 层 必须 支持 的 重组 缓冲 区 大 小 只 有 576 字 节 ， 因 此 你 可 能 会 磁 到 接 
收 不 了 本 习题 发 送 的 最 大 大 小 数据 报 的 主机 。 另 外 源 自 Berkeley 的 许多 
实现 〈 包 括 4.4BSD-Lite 20 有 一 个 正 负 号 缺陷 (bug) ， 它 导致 UDP 不 
能 接受 大 于 32767 字 节 的 数据 报 〈TCPv2 第 770 页 第 95 行 ) 。 





第 9 草 


9.1 总 地 说 来 ， 整 体 上 接受 短期 请 求偶 尔 需 要 长 期 会 话 的 应 用 系 
统 可 以 利用 sctp_peeloff。 举 例 来 说 ， 某 个 类 似 传 统 UDP 的 SCTP 应 用 系 
统 中 ， 服 务 器 通常 有 如 短期 事务 处 理 那 般 响 应 客户 的 请 求 ， 不 过 偶尔 被 
请 求 执 行 长 期 的 音频 数据 传送 。 大 多 数 情 况 下 服务 器 发 送 少数 几 个 短小 
的 UDP 消息 就 行 了 ;然而 一 旦 音频 请 求 到 达 ， 长 期 会 话 就 被 激活 ， 以 发 
送 音频 信息 。 这 种 情形 下 可 以 使 用 该 函数 把 音频 流 剥 离 出 来 给 专门 的 线 
程 或 进程 处 理 。 


926 


92 ”因为 SCTP 不 文 持 半 关 闭 状 态 ， 造 成 当 客户 调用 close 时 ， 关 联 
终止 序列 把 来 自 服务 器 的 任何 已 排队 但 尚未 处 理 的 未 决 数 据 冲刷 掉 以 终 
止 关 联 ， 达 到 关闭 关联 目的 。 


9.3 ”对 于 一 到 一 式 套 接 字 客户 必须 首先 调用 sctp_connect 显 式 建立 
关联 ， 但 是 该 函数 没有 额外 指定 数据 的 参数 ， 因 此 无 法 在 四 路 握手 的 第 
三 个 分 组 中 随 COOKIE ECHO 消 息 携 带 数 据 。 对 于 一 到 多 式 套 接 字 客户 
不 比 先 建立 关联 再 发 送 数据 ， 而 是 可 以 调用 sctp_sendto 同 时 完成 两 
者 ， 也 就 是 说 这 样 发 送 的 数据 随 COOKIE _ ECHO 消息 被 IP 数 据 报 载 送 到 
对 端 ， 这 样 的 关联 是 隐 式 建立 的 。 


9.4 本 端 准 备 与 之 建立 关联 的 对 端 在 关联 建立 阶段 能 够 发 送 回 数 
据 的 唯一 可 能 情形 是 它 在 关联 建立 之 前 就 准备 好 了 数据 。 当 两 端 都 使 用 
一 到 多 式 套 接 字 几乎 同时 发 送 数据 隐 式 建立 关联 时 就 会 发 生 这 种 情形 。 
这 种 关联 建立 称 为 INIT 冲 突 ， 详 见 [Stewart and Xie 2001] 第 4 章 。 


9.5 ” 东 些 情况 下 并 非 所 有 绑 定 的 地 址 都 可 以 传递 到 对 端 端点 。 具 
体 地 说 ， 如 果 某 个 应 用 进程 绑 定 的 卫 地 址 中 既 有 公用 的 又 有 私 用 的 ， 那 
么 可 能 只 有 公用 地 址 可 以 与 对 问 共 享 。 劝 一 个 例子 是 IPv6 的 链 路 局 部 地 
址 不 一 定 能 够 与 对 并 共享 。 
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10.1 如 果 sctp_sendmsg 调 用 返回 错误 ， 那 就 不 会 发 送 任何 消息 ， 
客户 进程 于 是 阻塞 在 sctp_recvmsg 调 用 中 ， 等 竺 永远 不 会 返 送 回来 的 啊 
应 消息 。 解 诀 该 问题 的 办 法 显然 是 检查 这 个 函数 调用 的 返回 值 ， 如 果 发 
现 消息 发 送出 错 ， 那 就 报告 错误 而 不 再 接收 。 


如 果 sctp_recvmsg 调 用 返回 错误 ， 那 就 不 会 有 啊 应 消 恩 达到 ， 客 户 
进程 循环 回去 继续 答 试 发 送 消 息 ， 可 能 导致 建立 新 的 关联 。 避 免 这 个 问 
题 的 办 法 也 是 检查 这 个 函数 调用 的 返回 值 ， 根 据 情 况 或 者 报告 错误 并 关 
财 套 接 字 ， 从 而 让 服务 器 也 收 到 一 个 错误 ， 或 者 知 错误 是 暂时 的 则 重新 


尝试 sctp_recvmsg 调 用 。 
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10.2 如果 服务 器 在 接收 一 个 请 求 后 退出 ， 客 户 将 被 永远 挂 起 ， 等 
独 决 不 会 到 来 的 消 轧 。 客 户 检测 这 种 情况 的 方法 之 一 是 开局 关联 事件 。 
这 样 当 服务 器 退出 时 客户 将 收 到 一 个 消 轧 ， 告 知客 户 该 关联 已 经 不 复 存 
在 。 客 户 可 就 此 采取 恢复 手段 ， 璧 如 说 联系 另外 一 个 服务 器 。 方 法 之 二 
是 客户 启动 一 个 定时 器 ， 过 一 段 时 间 收 不 到 响应 消息 就 取消 关联 。 


10.3 ”我 们 选择 800 字 节 是 为 了 试图 让 每 个 SCTP 块 处 于 单个 分 组 
中 。 更 好 的 方法 也 许 是 通过 scTP_MAXsEG 套 接 字 选 项 确定 适合 一 个 SCTP 
块 的 大 小 。 


10.4 ” Nagle 算法 (由 scTP_NODELAY 套 接 字 选项 控制 ， 见 7.10 节 〉 只 
会 在 选择 较 小 的 数据 传送 大 小 前 提 下 导致 问题 。 只 要 以 迫使 SCTP 立 即 
发 送 的 大 小 写 出 数据 就 不 会 发 生 危 害 。 然 而 如 果 给 out_sz 选 择 一 个 偏 小 
的 值 ， 结 末 就 会 友 生 扭曲 ， 和 暂缓 发 送 某 些 数据 以 等 竺 来 自 对 端的 
SACK。 因 此 如 果 使 用 较 小 的 大 小 值 ， 那 么 禁止 Nagle 算 法 《〈 即 开 
局 ScTP_NODELAY 套 接 字 选项 ) 可 能 比较 可 取 。 


10.5 ”如 果 应 用 进程 在 建立 一 个 关联 之 后 改动 流 的 数目 ， 那 么 这 个 
关联 的 实际 流 数 不 会 改变 。 这 是 因为 流 数 的 变更 仅仅 影响 新 的 关联， 而 
不 影响 现 有 关联 。 


10.6 一 到 多 式 套 接 字 允许 隐 式 设置 关联 。 为 了 使 用 辅助 数据 更 改 
某 个 关联 的 设置 ， 我 们 首先 需要 使 用 sendmsg 调 用 把 这 些 数据 提供 给 对 





























端 。 因 此 请 求 更 多 的 流 要 求 使 用 辅助 数据 通过 sendmsg 进 行 
新 设置 。 


第 11 章 
11.1 网 E-10 给 出 了 调用 gethostbyaddr 的 程序 。 


1 fiinclude "unp.h" 


2 int 
3 main(int argc, char **argv) 


a { 

5 char eper, **pptr: 

6 char str INET6 ADDRSTRLEN]; 
7 


struct hostent — *hptr; 


隐 式 关联 重 
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E while (--arg2 > 0) { 

S ctr = *11arqv; 

19 if | ‘hpzr = gethostbyname (ptr)! -- NULL) [ 

11 err msg/"gethastbyname error for hast: $a: 4s", 

12 ptr, hstrerror (hn errno)!; 

13 cont inuc; 

1 } 

15 printf ("oficial bostnare: s\n", Fpl r-»" name!; 

18 for (pptr ~ hptr->h aliases; *pptr !- NULL; pptre4) 

17 crinct(" alias: te\n", *pptr;; 

13 switch íhptr--h a3drtype) | 

1 Came AF TNET: 

29 4ifdef AF INET6 

21 case AF INETé: 

22 4endif 

23 p-r = hptr-»h addr list; 

24 for ( ; *pptr .- NULL; ppzr«s; | 

25 orintt ("\taddrecs: tc\n", 

25 Inet rtcp(hgtr--h addztvpe. “pptr, str. sizeof str)!): 
27 if | (hptr a gethestbyadted*pper, ^p! r-»h length, 
28 hztr-*h addrtvpe)) == NULL) 
29 printf ("it(gethcstbyaddr =ailed) \n") ; 

39 else if (hptr-sh_name != NULL) 

31 printf (*\tnare = s\n", hptr-»5 rare); 

32 else 

33 printf ("\c(no hcotname returned by qethoctbyacdr) \n"); 
34 } 

35 break; 

35 detault: 

37 err reét/"unknowr address ctype"); 

33 breaz; 

33 } 

49 } 

41 exit(0); 

42 } 








图 E-10 ”图 11-3 改 成 调用 gethostbyaddr 的 结 
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本 程序 针对 只 有 一 个 了 地 址 的 主机 运行 没有 问题 。 如 果 针 对 拥有 8 
个 IP 地 址 的 一 个 主机 运行 图 11-3 中 的 程序 ， 我 们 得 到 如 下 输出 : 


freebsd % hostent cnn.com 

official hostname: cnn.com 
address: 64.236.16.20 
address: 64.236.16.52 
address: 64.236.16.84 
address: 64.236.16.116 
address: 64.236.24.4 
address: 64.236.24.12 
address: 64.236.24.20 
address: 64.236.24.28 


但 是 如 果 我 们 针对 同一 个 主机 运行 图 E-10 中 的 程序 ， 那 么 它 只 输出 
其 中 一 个 IP 地 址 : 


freebsd % hostent2 cnn.com 
official hostname: cnn.com 
address: 64.236.24.4 
name = wwwi.cnn.com 
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问题 在 于 gethostbyname 和 gethostbyaddr 这 两 个 函数 共享 同一 
个 hostent 结 构 ， 束 如 11.18 节 开 首 部 分 所 示 。 当 我 们 的 新 程序 在 调 
用 gethostbyname 之 后 调用 gethostbyaddr 时 ， 它 重用 了 这 个 结构 以 及 由 
它 指 同 的 存储 区 〔 即 h_addr_1list 指 针 数 组 及 由 该 数组 所 指 同 的 数 
据 》〉3， 结 果 冲 挥 了 由 gethostbyname 返 回 的 其 余 7 个 IP 地 址 。 


11.2 ”如 果 你 的 系统 不 文 持 重 入 版 本 的 gethostbyaddr (我 们 将 在 
11.19 市 讲解 )， 那 么 你 必须 在 调用 gethostbyaddr 之 前 复制 
由 gethostbyname 返 回 的 指针 数组 以 及 由 该 数组 所 指 癌 的 数据 。 


11.3 ”chargen 服 务 器 一 直 辐 客户 发 送 数据 ， 直 到 客户 关闭 连接 为 目 
〈 也 就 是 说 你 中 断 客 户 为 止 ) 。 


11.4 这 是 较 新 版 本 BIND 的 一 个 特性 ， 不 过 POSIX 没 有 规定 这 种 处 
理 方式 ， 在 可 移植 程序 中 不 能 依赖 它 。 图 E-11 给 出 了 图 11-4 中 程序 的 修 
改 后 版 本 。 对 主机 名 字符 串 的 测试 顺序 很 重要 。 我 们 首先 调 
用 inet_pton， 因 为 它 是 一 个 快速 的 全 内 存 访问 测试 函数 ， 用 于 判定 主 
机 名 字符 串 是 不 是 一 个 有 效 的 点 分 十 进 制 数 也 地 址 。 仅 当 这 种 测试 失败 
时 我 们 才 调 用 gethostbyname， 它 往往 牵涉 某 些 网 络 资源 ， 因 而 得 花 一 











段 时 间 。 
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f#include "unp.h" 


main(int erqc, char **a:uv! 


int sockfd, r; 

uhar recvline [MAXLINE + 1]: 
struct sockaccr in servaddr: 
struct in_addr  **pptr, *add-s[2l; 
scrucc hoscent *hp; 

struct servent ‘sp; 


if (arg !- 3) 
err quirí("usage: daytimetepeliz «hostname» «services"); 


pzero(&servaccr, sizeof |servadd-!!; 
servaddr.sin family = AF -NET: 


if (inet ptcn(AP INDT, argv[1]. ase-vaddr.sin addr) -- 1) { 
addrs[0] = &serveddr.sin addr; 
a$4ars(1] = NULL; 
pptr - £adádrs [C]; 
] sise if ( (hp = gethostbyname(argv(1]!) 1= NULL) { 
potr = (struct in_addr **j hp->h_addr list; 
) else 
arr_quit ("hestrame error for ts: +s", argv[1], hstrerrcr(h errno)]; 


i£ ( (m= atci(argv[21)) > 0! 
aervaridr.sin port s htons[n;: 

alse if ( (ep « geteervbyname(argz[23], "tco")) !- NULL) 
32rvaddr.sin port = sp »3 port; 

else 
err Mrit ("gerservhymame error *or xat, argv[2]); 


for ( ; *pctr !- NULL; pptr-«) Í 
Sockfa = Secker(AF_INET, SOCK_STREAM, 01; 


memmove(&servacir.sin addr, *pptr, sizeof(struct in ador)); 
griut£f("Lryinc Ys\n', Sock ntop((SA *!| &servadir, sizecf(servaddi]]|: 


if (connect(ccckfd, (SA "] kservaddr, cizcof(servaddr)) -- 0) 
break; /* success */ 
err ret("ccnnect error"); 
“Lose (sncktd) ; 
} 
if (*pptr == NULL) 
arr_quir ("unable ro connect"): 


while ( (n » Reedisockfd, recvline, MAXLINE)) » 0) { 
recvlinme[n] = C; /* uull terminate */ 
Fnurs(recvlire, stdout); 


} 


exit (0); 


taytimetcpeli2.c 


图 E-11 允许 点 分 十 进 制 数 IP 地 址 或 主机 名 ， 端 口号 或 服务 名 的 版 本 


如 琳 这 个 字符 串 是 一 个 有 效 的 扣 分 十 进 制 数 IP 地 址 ， 我 们 就 自行 构 
造 指 向 这 个 IP 地 址 的 指针 数组 (addrs〉， 它 使 得 以 后 使 用 pptr 的 循环 
代码 保持 不 变 。 


既然 主机 名 字符 串 已 被 转换 成 套 接 字 地 址 结构 中 的 二 进 制 数 格 式 ， 
我 们 于 是 进入 使 用 pptr 的 循环 。 我 们 把 图 11-4 中 的 memcpy 调 用 改 
Zjmemmove 《两 者 功能 相同 ， 不 过 后 者 能 够 正确 处 理 源 目 的 内 存 区 重 装 
的 情形 ) ， 这 是 因为 如 果 主 机 名 字符 串 是 一 个 点 分 十 进 制 数 IP 地 址 ， 那 
么 调用 memmove 的 源 和 目的 内 存 区 是 相同 的 。 


11.5 ”图 E-12 给 出 了 这 个 程序 。 
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mamsie yiiraeu pr HEP 
1 3include "unp.h" 


2 in- 

3 main(int argc, char v"*arqv) 

ål 

5 int cocktd, n; 

D cher recvline[KAXLINE + 1]; 

7 struct seckaadr_in  oervcdd-; 

8 struc- sockaddr iné serveddré; 

9 struct Socxaadr *sa; 

10 socklen t salen; 

11 struc- in aàdcr **ppt-, 

12 struc: hosrent thp: 

13 struct servert “sp; 

14 if (argc t= i; 

15 e-r quit("usage: day-imetcp-li3 «hostzame» «service»"); 
16 it ( (hp -= qcthoctbynare!arqv[1])] == NULL! 

17 err_quit ("hostname error for $s: $s", argv[i) hstrerror(h errno)!; 
18 if ( (sp = getservbyname!argv|2], "tcp")| == NULL! 
1a err quit ("Jetservbyname error for ts", argv[2]); 
20 rptr = (struct in_addr +*+) hp-»h addr list: 

21 for | ; *pztr !« NULL; potr::) { 

2 sockf= = Socket(hp-»- eddrtype, SOCK STREAM, 0); 
2 a= {hp->h zddrtyps ==- AF INET) | 

24 sz = {SA *) &kservaddr; 

25 salen - sizsof (s¢exvadér); 

2 } else if (hp-»t addrtype == AF INETE) { 

27 sa = (SA *| &servaddrt, 

28 salen = sizeof (servaddre! ; 

23 ) elss 

39 err quit!"urknowa addrtype td", ho->h_addrtypel ; 
51 brero(se, salen); 

32 £a-»c3 family = hp-»5 zddrtype; 

33 sock cet port (sa, salen, sp-»s port!; 

31 Bock cet addrí(oa, calen, *pptr!i: 

35 printf("-rying %s\n", Sock rtopísa, salen)); 

36 i= (connect (scckfd, sa, salen) == Gi 

37 breax; /* g:ccesz */ 

5a ecr o reti"connect error"); 

39 cloze(cocktd); 

40 } 

41 if (*pptr == NULL) 

42 e-r quit (“unable La cocumect") ; 

43 while ( (n - Read(sockEd, recvline, MAXLINE)) > 01 { 
4a recu_ime[n}) = 0;/* mall terminate */ 

5 Pputs(recvline, stdout) ; 

46 

47 exit td) ; 

43 } 
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图 E-12 ”图 11-4 中 程序 同时 适用 于 IPv4 和 IPv6 的 修改 版 本 


我 们 使 用 由 gethostbyname 返 回 的 h_addrtype 值 判定 地 址 类 型 ， 并 使 
用 我 们 的 sock_set_port 和 sock_set_addr 这 两 个 函数 (3.8 节 ) 在 合适 的 


BER FHL ad Hn BLU D NUBE DR SF BE. 


本 程序 尽管 能 够 工作 ， 却 存在 两 个 局 限 。 首 先 ， 我 们 必须 处 理 所 有 
差异 ， 碍 看 h_addrtype 后 再 适当 地 设置 sa 和 salen。 更 好 的 办 法 是 由 某 个 
库 函 数 不 仅 完 成 主机 名 和 服务 名 的 查找 ， 而 且 完 成 整个 套 接 字 地 址 结构 
的 填写 (例如 11.6 节 的 getaddrinfo) 。 其 次 ， 本 程序 只 在 支持 IPv6 的 主 
机 上 能 够 编译 。 要 在 仅仅 支持 IPv4 的 主机 上 编译 就 得 添加 不 少 #ifdef 伪 
代码 ， 从 而 把 代码 弄 得 复杂 起 来 。 
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11.7 分 配 一 个 大 缓冲 区 〈 比 任何 套 接 字 地 址 结构 都 要 大 〉 并 调 
用 getsockname。 它 的 第 三 个 参数 是 一 个 值 一 结果 参数 ， 由 它 返 回 真正 
的 协议 地 址 大 小 。 不 过 这 种 方法 只 适合 具有 固定 长 度 套 接 字 地 址 结构 的 
协议 《例如 IPv4 和 IPv6) ， 对 于 能 够 返回 可 变 长 度 套 接 字 地 址 结构 的 协 
议 〈 例 如 Unix 域 套 接 字 ， 第 15 童 ) 却 不 能 保证 正确 工作 。 


11.8 我 们 首先 分 配 存 放 主 机 名 和 服务 名 的 数组 : 


char host[NI MAXHOST], serv[NI MAXSERV]; 














然后 在 accept 返 回 之 后 改 为 调用 getnameinfo 以 取代 soc k ntop: 


if (getnameinfo(cliaddr, len, host, NI MAXHOST, serv, 
NI MAXSERV, NI NUMERICHOST | NI NUMERICSERV) == 0) 
printf("connection from %s.%s\n", host, serv); 


既然 这 是 服务 器 程序 ， 我 们 指定 NI_NUMERICHOST 和 NI_NUMERICSERV 
标志 以 避免 查询 [DNS 和 查找 /etc/services 文 件 。 


11.9 第 二 个 服务 器 页 到 的 第 一 个 问题 是 无 法 捆绑 与 第 一 个 服务 器 
相同 的 端口 ， 这 是 因为 没有 设置 So_REUSEADDR 套 接 字 选项 。 最 容易 的 解 
决 办 法 是 制作 udp_server 函 数 的 一 个 副本 ， 把 它 命名 
为 udp_server_reuseaddr， 由 它 设置 这 个 套 接 字 选 项 ， 再 从 服务 器 程序 
调用 这 个 新 函数 。 











11.10” 当 客户 输出 “Trying 206.62.226.35...” 时 ，gethostbyname 已 经 
返回 了 IP 地 址 。 客 户 在 此 之 前 的 任何 停顿 是 解析 器 用 于 查找 主机 名 的 时 





间 。 输 出 “Connected to bsdi.kohala.com”* 意 味 着 connect 已 经 返回 。 这 两 
个 输出 行 之 间 的 任何 停顿 是 connect 用 来 建立 连接 的 时 间 。 


第 12 章 


12.1 下 面 是 相关 的 摘录 片段 (省 掉 了 登录 和 列 目录 等 内 容 ) 。 
机 freebsd 二 的 FTP 客 广 不 论 使 用 IPv4 还 “是 IPv6 总 是 先 尝试 EPRT 命 令 ， 若 
不 工作 则 退回 到 PoRT 命 令 
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freebsd % ftp aix-4 
Connected to aix-4.unpbook.com. 
220 aix FTP server ... 


230 Guest login ok, access restrictions apply. 

ftp» debug 

Debugging on (debug-1). 

ftp» passive 

Passive mode: off; fallback to active mode: off. 
ftp» dir 

---» EPRT |1|192.168.42.1|50484| 

500 'EPRT |1[|192.168.42.1|50484|': command not understood. 
disabling epsv4 for this connection 

---» PORT 192,168,42,1,197,52 

200 PORT command successful. 

---» LIST 

150 Opening ASCII mode data connection for /bin/ls. 


freebsd % ftp ftp.kame.net 

Trying 2001:200:0:4819:203:47ff:fea5:3085... 
Connected to orange.kame.com. 

220 orange.kame.com FTP server ... 


230 Guest login ok, access restrictions apply. 

ftp» debug 

Debugging on (debug-1). 

ftp» passive 

Passive mode: off; fallback to active mode: off. 

ftp» dir 

---» EPRT |2|3ffe:b80:3:9ad1::2/|50480| 

200 EPRT command successful. 

---» LIST 

150 Opening ASCII mode data connection for '/bin/ls'. 


551335 
13.1 daemon_init 中 关闭 所 有 描述 符 的 close 调 用 也 将 关闭 





由 tcp_listen 建 立 的 监听 TCP 套 接 字 。 既 然 作 为 守护 进程 编写 的 程序 可 
能 是 从 某 个 系统 启动 命令 脚本 执行 的 ， 因 此 我 们 不 应 该 假设 任何 出 错 消 
县 都 能 写 到 某 个 终端 。 所 有 出 错 消 息 都 应 该 使 用 syslog 登 记 ， 即 使 诸如 
命令 行 参 数 无 效 之 类 的 启动 出 错 消 息 也 不 例外 。 


13.2 TCP 版 本 的 echo、 discard 和 chargen 服 务 器 由 inetd 派 生出 来 
之 后 作为 子 进程 运行 ， 因 为 它们 需要 运行 到 客户 终止 连接 为 止 。 另 外 2 
个 TCP 服 务 器 time 和 daytime 并 不 需要 inetd 派 生子 进程 ， 因 为 它们 的 服 
务 极 易 实现 〈 即 取得 当前 时 间 和 日 期 ， 把 它 格 式 化 后 写 出 ， 再 关闭 连 
接 ) ， 于 是 由 inetd 直 接 处 理 。 所 有 5 个 UDP 服务 的 处 理 都 不 需要 inetd 
派生 子 进程 ， 因 为 每 个 服务 对 于 引发 它 的 任 一 客户 数据 报 所 作 的 响应 只 
是 最 多 产生 一 个 数据 报 。 因 此 这 5 个 服务 也 由 inetd 直 接 处 理 。 


13.3 ”这 是 一 个 众所周知 的 拒绝 服务 型 攻击 〈 LCERT |). A 
端口 7 的 第 一 个 数据 报导 臻 chargen 服 务 器 发 送 回 一 个 数据 报到 端口 7， 
它 被 回 射 成 发 送 到 chargen 服 务 器 的 下 一 个 数据 报 ， 这 样 一 直 循 环 下 
去 。FreeBSD 上 实现 的 解雇 办 法 是 拒绝 源 端口 和 目的 端口 都 是 内 部 服务 
的 外 来 数据 报 。 另 一 个 常用 的 解雇 办 法 是 在 每 个 主机 上 通过 inetd 茶 止 
这 些 内 部 服务 ， 或 者 在 一 个 组 织 机 构 接 入 因特网 的 路 由 器 上 这 么 做 。 


13.4 ”客户 的 IP 地 址 和 端口 取 自 由 accept 填 写 的 套 接 字 地 址 结构 。 


inetd 对 UDP 套 接 字 无 能 为 力 的 原因 是 读 入 数据 报 的 recvfrom 是 由 
通过 exec 激 活 的 真正 服务 器 而 不 是 inetd 本 里 执行 的 。 


inetd 可 以 仅仅 为 了 获取 客户 的 IP 地 址 和 闻 口 而 指定 MS6_PEEK 标 志 
2 14.73) BGR, RAMSGATE EGLI, RPP EIEMN A 
ABA. 


























934 
75 1438 
14.1 如 果 未 曾 建 立 过 信号 处 理 函 数 ， 那 么 第 一 个 signal 调 用 将 返 
回 sTrG_DFL， 而 重新 设置 信号 处 理 函 数 的 第 二 个 signal 调 用 只 是 把 它 设 
置 回 默认 处 置 。 
14.3 ”下面 是 修改 后 的 for 循 环 : 


for (; ; )t 
if ( (n = Recv(sockfd, recvline, MAXLINE, MSG PEEK)) == 0) 
break; /* server closed connection */ 


Ioctl(sockfd, FIONREAD, &npend); 
printf("%d bytes from PEEK, %d bytes pending\n", n, npend); 


n - Read(sockfd, recvline, MAXLINE); 


recvline[n] = 0; /* null terminate */ 
Fputs(recvline, stdout); 


14.4. 数据 仍然 输出 ， 因 为 掉 出 main 函 数 末 尾 等 同 于 从 这 个 函数 返 
回 ， 而 main 函 数 又 是 由 C 局 动 例 程 如 下 调用 的 : 


exit(main(argc, argv)); 


因此 exit 仍 然 被 调用 ， 标 准 MO 清 扫 例 程 也 同样 被 调用 。 
第 15 章 


15.1 unlink 从 文件 系统 中 删除 了 路 径 名 ， 此 后 客户 调用 connect 束 
会 失败 。 服 务 堪 的 监听 套 接 字 不 受 影响 ， 不 过 unlink 之 后 没有 客户 能 够 
成 功 connect 到 其 上 。 


15.2 即使 路 径 名 仍然 存在 ， 客 户 也 无 法 connect 到 服务 器 ， 这 是 因 
aa 的 绑 定 了 那个 路 径 名 的 Unix 域 套 
RF 〈15.4 节 ) 。 


15.3 ” 当 服 务 器 通过 调用 sock_ntop 显 示 客 户 的 协议 地 址 时 ， 输 出 信 
H xe “datagram from (no pathname bound)”( 数 据 报 来 自 〈 无 路 径 名 绑 
T) ) ， 因 为 默认 情况 下 客户 的 套 接 字 上 不 绑 定 任何 路 径 名 。 


解决 办 法 之 一 是 在 udp_client 和 udp_connect 中 明确 检查 是 否 为 一 个 
Unix 域 套 接 字 ， 奉 是 则 调用 bind 给 它 捆绑 一 个 临时 路 径 名 。 这 么 做 把 协 
议 相 关 处 理 置 于 原本 所 属 的 库 函 数 中 ， 而 不 是 置 于 我 们 的 应 用 程序 中 。 
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15.4 尽管 我 们 迫使 服务 器 程序 为 它 的 26 字 节 应 答 逐 个 字 节 调 
用 write， 客 户 程序 中 放置 的 sleep 调 用 还 是 保证 在 调用 read 之 前 所 有 26 


个 分 市 都 接收 到 ， 使 得 单个 read 调 用 返回 完整 的 应 答 。 这 个 例子 只 是 为 
T EA) 验证 TCP 是 一 个 没有 内 在 记录 边界 的 字 节 流 。 


要 使 用 Unix 域 协议 ， 我 们 以 2 个 命令 行 参数 /local (或 /unix) 
和 /tmp/daytime (或 你 想 使 用 的 任何 其 他 临时 路 径 名 )〉 启动 客户 和 服务 
器 。 情 况 没 有 变化 : 每 次 运行 客户 程序 由 read 返 回 的 都 是 26 个 字 节 。 


服务 器 为 每 个 send 指 定 MsG_EOR 标 志 之 后 逐个 发 送 的 每 个 字 节 都 被 
认为 是 一 个 逻辑 记录 ， 客 户 每 次 调用 read 所 返回 的 也 将 是 1 个 字 节 。 这 
里 倍 巧 的 是 源 目 Berkeley 的 实现 默认 文 持 MsG_EOR 标 志 。 不 过 这 一 点 没有 
写 在 正式 文档 中 ， 在 生产 性 代码 中 不 应 该 使 用 。 我 们 这 儿 使 用 它 作 为 表 
现 字 节 流 协议 和 面向 记录 协议 之 差异 的 一 个 例子 。 从 实现 角度 看 ， 每 个 
输出 操作 都 进入 一 个 内 存 缓冲 区 Cmbuf) ，MsG_EOR 标 志 由 内 核 随 mbuf 
从 发 送 套 接 字 转移 到 接收 套 接 字 的 接收 缓冲 区 维持 在 mbuf 中 。 调 用 read 
时 MsG_EOR 标 志 仍 然 依 附 在 每 个 mbuf 上， 因此 通用 内 核 read 例 程 〈 它 支 
持 MSG_EOR 标 志 ， 因 为 一 些 协议 使 用 它 ) 独自 返回 每 个 字 节 。 如 果 我 们 
改 用 recvmsg 取 代 read， 它 将 在 每 次 返回 一 个 字 节 时 还 在 msg_flags 成 员 
中 返回 MsG_EOR 标 志 。 这 个 特性 并 不 适用 于 TCP， 因 为 发 送 端 TCP 从 来 不 
看 所 发 送 mbuf 中 的 MsG_EoR 标 志 ， 而 且 即 使 它 看 了 ， 它 也 无 法 在 TCP 首 
部 中 把 这 个 标志 传递 给 接收 端 TCP。 (感谢 Matt Thomas 指 出 这 个 没有 写 
在 文档 中 的 “特性 ”。 ) 


图 E-13 给 出 了 这 个 程序 的 实现 。 








- debugibachlog.« 











z #include "ump. t" 
2 ddefine PORT ons 

3 $detine ADDR "127.9.0.1" 
4 #define MAXDBACHLCG 100 
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f+ globals */ 
BStruc- cockacdr ir cerv, 


pide pid; /* of child ay 

int pipstd|21; 

4dsfine pfd pipefd[1] /* parent's end */ 

Hdefire cfd pigefd[2! /* child's end */ 
/* function prototypes */ 

valid do_narent (void) ; 


void dc_child (void) ; 


(d 


int 
main(int argc, char **argv! 
{ 
i= (argc != 1) 
err quit ("ugace: backlog"), 
Socket pair(AF TINTX, SOCK STREAM, 0, pipefd) : 
bzerol&serv, sizeoE/serv]); 
Eerv .ein family = AF INZT; 
serv.sin part = htens (PORT) ; 
1nez ptoad;AK INET, ADDR, &serv.sin addr); 
d= ( (pid = Fcrx()) == 2) 
dc zhildl!; 
else 
do »arent():; 
[> j 
void 
parent alrn(int signo; 
{ 
return; /* juez interrupt blocked connect () */ 
} 
void 
3o paren- (void; 
{ 
int bazklog, j, k, junk, fd[MAXBACKLOG - 1]; 
Close (cfd) ; 
Signal (SIGALEM, parezt alrm)r 
for !tacklug = ^: backlog c= 14: hackloges) 1 
printf ("cackicg = td: ", backlog]; 
Wr-teizfà, &4backloc, sizeof{inti); /* tell child value */ 
Read(pEd, &junk, sizect (intl), /* wait tor caild */ 
for (j = Lj j <= MAXBACKLOG; j++) ' 
fd[j] = Socket (AF 7NET, SOCK STREAM, 0); 
alarmi(2!: 
if [conrect(fd[j], (SA * | serv, eizeof(serv)) e 0) | 
it (ermo !- 3INIR! 
ere wyw("couuecl error, j = 5d", j); 
printf ("zimeout, $d connections complezed\n", j-1); 
for (k = 1; k <= 3; k++) 
Cless(fd x1); 
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£4 breek; /* next valve of backlog */ 
= 


Se alarmit); 

ES 

EE if |j > MAXBACKLOS) 

2s priatcfí("*d conmections7\n", MAXBACKLOG); 

Er y 

6l bacxlcc = -Li /* tell child we'-z5 all done *; 
Cz Write(pfd, Sbackiog, sizeoif(int)], 

€3 | 

€4 void 

€§ do child[void) 

66 1 

€5 ius liszenfd, backlog, junk; 

€t const int on = i; 

cs Close (pid) ; 

70 Read(cfd, «backlog, sizeolt(int)}; /* wait for parent */ 

71 while (backlog +- 2! { 

?2 listenfü = SockeL(BF -NZT, SOCK SIREAM. 2); 

了 3 sstsockopt (listenfd, SOL SOCKET, SU FEUSZADDE, «on, sS-zeof(on]!:; 
74 Bindilictenfd, (2^ *) &oorv, cisssfiserv)); 

了 Listen[listenfd, backlog}; /* start che listen */ 

"7€ Write (cfd, &iunk, cizcof(irt)): /* tell parent */ 

75 Read|ctd, &£backlo3, s-zeof(int:!; /* iust wait for parent */ 
Te Clece|lioterfd):/* closes all queued connections, too */ 
7$ ; 

FC 


denngihacktag c 





图 E-13 ”确定 不 同 的 backlog 值 对 应 的 真正 己 排队 连接 数 
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161 和 套 接 字 描 述 符 是 在 父子 进程 之 间 共 孚 的 ， 因 此 和 它 的 引用 计数 
为 2。 要 是 父 进程 调用 close， 那 么 这 只 是 把 该 引用 计数 由 2 减 为 1， 而 且 
既然 它 仍 然 大 于 0，FIN 就 不 发 送 。 这 就 是 使 用 shutdown 函 数 的 必 一 个 理 
由 : 即使 描述 符 的 引用 计数 仍然 大 于 0，FIN 也 被 强迫 发 送出 去 。 


16.2 父 进 程 将 继续 写 出 到 已 经 接收 FIN 的 套 接 字 。 它 发 送 给 服务 
器 的 第 一 个 分 节 将 引发 RST 响 应 。 此 后 的 那个 write 调 用 将 导致 内 核 像 
我 们 在 5.12 市 讨论 过 的 那样 向 父 进程 及 送 SIGPIPE 信 号 。 


16.3” 当 子 进 程 调用 getppid 以 同 父 进 程 发 送 sSIGTERM 信 号 时 ， 所 返 
回 的 进程 四 将 是 1 即 init 进 程 ， 它 是 所 有 孤儿 进程 的 继父 (也 就 是 说 它 
继承 所 有 其 父 进 程 在 子 进程 仍 在 运行 时 就 终止 的 那些 子 进程 》》。 子 进程 
试图 同 init 进 程 发 送 这 个 信号 ， 但 是 没有 足够 的 权限 。 然 而 如 果 这 个 客 
户 程序 有 机 会 以 超级 用 户 特权 运行 ， 从 而 允许 它 同 init 发 送信 号 ， 那 么 
在 发 送 该 信号 之 前 应 该 检测 getppid 的 返回 值 。 











16.4 ”如 果 去 挤 这 两 行 ，select 就 被 调用 。 不 过 select 调 用 将 立即 
返回 ， 因 为 连接 建立 之 后 套 接 字 是 可 写 的 。 这 个 测试 加 goto 语 句 只 是 避 
免 不 必要 地 调用 select。 


16.5 ”如 果 服 务 嚣 在 accept 调 用 返回 之 后 立即 发 送 数 据 ， 而 当 三 路 
握手 的 第 一 个 分 节 到 达 以 在 客户 端 完成 连接 的 时 候 客户 主机 却 比较 位 
(Al2-5) ， 那 么 来 自 服务 器 的 数据 可 能 在 客户 的 connect 调 用 返回 之 前 
到 达 。 举 例 来 说 ，SMTP 服 务 占 在 未 从 中 读 之 前 束 立 即 往 一 个 新 建立 的 
连接 中 写 ， 以 便 给 客户 发 送 一 个 问候 消息 。 
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17.1 无 关 紧 要 ， 因 为 图 17-2 中 union 的 前 3 个 成 员 都 是 套 接 字 地 址 
结构 。 


第 18 章 








18.1 sdl_nlen 成 员 将 是 5，sdl_alen 成 员 将 是 8。 整 个 sockaddr dl 
结构 需要 21 个 字 节 ， 在 32 位 体系 结构 上 则 同上 舍 入 成 24 个 字 市 ‘TCPvV2 
788991) 。 


18.2 内核 的 啊 应 绝 不 发 送 到 这 个 套 接 字 。So_USELOoPBACK 套 接 字 
选项 确定 内 核 是 否 把 应 答 发 送 给 发 送 进程 ，TCPv2 第 649 一 650 页 讨论 了 
这 一 点 。 它 的 默认 设置 是 开启 ， 因 为 大 多 数 进 程 需 要 这 些 应 答 。 禁 止 该 
选项 将 防止 内 核 把 应 答 发 送 给 发 送 进 程 。 


第 20 章 

20.1 ”如 果 你 接收 到 许多 应 答 ， 它 们 每 次 到 达 的 先后 顺序 不 应 该 都 
一 样 。 不 过 发 送 主机 本 身 的 应 答 通常 是 第 一 个 ， 因 为 其 数据 报 的 来 往 并 
不 出 现在 真正 的 网 络 上 。 


20.2 FreeBSD 上 当 信 号 处 理 函 数 往 管 道中 写 入 一 个 空 字 节 并 返回 
之 后 ，select 返 回 EINTR。select 有 再 次 被 调用 时 返回 管道 的 可 读 条 件 。 




















第 21 章 


21.1 ”我们 运行 该 程序 得 不 到 任何 输出 。 为 了 防止 进程 偶尔 收取 并 
非 期 竺 的 多 播 数据 报 ， 内 核 不 把 接收 到 的 多 播 数 据 报 递 送 给 未 曾 在 其 上 
执行 过 任何 多 播 操作 《譬如 加 入 茶 个 组 ) 的 目的 地 套 接 字 。 这 里 发 送 的 
那个 UDP 数据 报 的 目的 地 址 是 224.0.0.1， 它 是 所 有 具备 多 播 能 力 的 节点 
都 必须 参加 的 所 有 主机 组 。 该 UDP 数据 报 作 为 一 个 多 播 以 太 网 帧 发 送 ， 
因而 所 有 其 备 多 播 能 力 的 节 扣 都 接收 到 它 ， 因 为 它们 都 属于 这 个 组 。 然 
MAKES SMAI IR, BAIS daytime sin AY ABS ERE 
(通常 就 是 inetd) 未 曾 设置 任何 多 播 选项 。 扎 
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21.2 ”图 E-14 给 出 了 调用 bind 捆 绑 多 播 地 址 和 端口 0 的 main 函 数 简 单 
修改 版 本 。 














mcasivedpc lis. c 





1 #inclule "urp h" 


2 ine 
3 main(int arqc, cmar **arqv] 
4 1 
5 int so-kfd; 
6 scexlen t saler, 
straz sockaddr “cli, “serv; 


R if (argc != 2} 

9 err zuit("usage: udpelicé «IPaddresss"); 
10 ccexfd = Udp eclient/arqv[1], "davtime*, ivoid ++) Seerv, &calen) i; 
11 cli ~ Malloc({salen) ; 
12 memcpy icli, serv, salen); /* copy sccke- address struct */ 
13 ecek set port(cli, salen, 0); /* and eet tort to U */ 
14 Bindisockfd, cli, salen); 
15 du Tlitstdin, eockfd, serv, salen); 

6 ex 2) 


measidpe li. c 





图 E-14 ”捆绑 多 播 地 址 的 UDP 客户 程序 main 函 数 


不 垃 的 是 ， 我 们 尝试 运行 本 程序 的 3 个 系统 (FreeBSD 4.8. MacOS 
UE ) 都 允许 如 此 bind， 随 后 发 送 的 UDP 数据 报 具 有 多 播 源 IP 地 
址 。 


21.3 在 支持 多 播 的 主机 aix 上 这 么 做 的 输出 如 下 : 





aix % ping 224.0.0.1 

224.0.0.1: 56 data bytes 

64 bytes from 192.168.42.2: icmp seq-0 ttl-255 time=0 ms 

64 bytes from 192.168.42.1: icmp seq-0 ttl-64 time-1 ms (DUP!) 

^C 

----224.0.0.1 Statistics---- 

1 packets transmitted, 1 packets received, +1 duplicates, 0% packet loss 
round-trip min/avg/max - 0/0/0 ms 


图 1-16 中 右 侧 以 太 网 上 两 个 主机 都 给 出 响应 。 包 


为 了 防护 特定 拒绝 服务 攻击 ， 茶 些 系统 默认 情况 下 对 于 广播 或 多 播 
ping 不 给 出 响应 。 为 了 让 主机 freebsd 给 出 响应 ， 我 们 必须 使 用 如 下 命令 
进行 配置 : 


freebsd % sysctl net.inet.icmp.bmcastecho=1 


21.5” 值 1073741824 转 换 成 浮 点 数 并 除 以 4294967296 得 到 0.250。 再 
乘 以 1000000 得 到 250000， 它 以 微 秒 为 单位 就 是 1/4 秒 。 
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最 大 的 整数 小 数 部 分 是 4294967295， 它 除 以 4294967296 得 到 
0.99999999976716935634。 再 乘 以 1000000 并 截 成 整数 得 到 999999， 它 
就 是 最 大 的 微 秒 数 。 
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22. 我 们 已 经 知道 sock_ntop 使 用 上 自己 的 静态 缓冲 区 存放 结果 。 如 
果 我 们 在 同一 个 printf 中 作为 参数 调用 它 两 次 ， 第 二 次 调用 束 会 覆 写 第 
一 次 调用 的 结果 。 


222 ”是 的 ， 如 果 应 答 中 包含 0 个 字 节 的 用 户 数据 的 话 〈 也 就 是 仅 
有 一 个 hdr 结 构 ) 。 


22.3 ”由 于 select 并 不 修改 指定 其 时 间 限 制 的 timeval 结 构 ， 因 此 你 
必须 记 下 第 一 个 分 组 的 发 送 时 刻 《〈 它 已 由 rtt_ts 以 微 秒 为 单位 返回 ) 。 
当 select 返 回 套 接 字 的 可 读 条 件 时 ， 记 下 当前 时 刻 ， 如 果 需 要 再 次 调 
用 recvmsg， 那 就 给 select 计 算 新 的 超时 值 。 


22.4 ”常用 的 技巧 就 如 我 们 在 22.6 节 所 做 的 那样 给 每 个 接口 地 址 创 
建 一 个 套 接 字 ， 然 后 就 从 请 求 到 达 的 那个 套 接 字 发 送 相应 的 应 答 。 


22.5“” 既 不 给 出 主机 名 参数 也 不 设置 AI_PAsSIVE 标 志 就 调 
用 getaddrinfo 会 导致 它 假定 获取 本 地 主机 地 址 0::1 (IPv6) 或 
127.0.0.1 (IPv4) 的 信息 。 回 顾 一 下 ， 我 们 知道 在 主机 支持 IPv6 的 前 提 
下 ，getaddrinfo 先 于 IPv4 套 接 字 地 址 结构 返回 IPv6 套 接 字 地 址 结构 。 如 
果 主 机 同时 支持 这 两 个 协议 ， 那 么 udp_client 中 的 socket 调 用 尝试 将 以 
地 址 族 为 AF_INET6 的 首次 尝试 成 功 告终 。 


图 E-15 是 这 个 程序 的 协议 无 关 版 本 。 








1 finclu2e "urpifi.n" 


2 void myg echotint., SA *, socklen L); 


HIN 


maintint arge, char **argv! 
{ 


ant 
pid_t 


struc: 
etrucz 


sesktd, tamily, cort; 
const int on = 1; 
pid; 
socer b salen; 
sockaddr tsa, *wild; 

ifi info tifi, *ifinead; 


it farge -= 2) 
sockEd = Ude_client INULL, argvil], ‘void 
else if (argc == 3) 


sockfd = Udy client argv ii], argv [2], (void **) ssa, salun); 


else 


err quit ("usaqe: udpserv04 [ «hoct» ] «service or rort>"); 


family = sa -3a f£zmily; 
porz = sock get por-'sa&. salen); 
Close lsk fd) ; 


/* we just aant fanily, port, salen */ 


**) asa, Ssaler!; 


for (ifitead = ifi = Get ifi info(familv, 1): 
ifi |= NULL; ifi = ifi-sifi next] | 


Setscexopt [sockid., SCL SOCKET, SO_REUSEADDR, aon. slzeofiícn)); 
sock set port(ifi-»:fi adir, salen, port!; 


/* bind unicast address */ 
SockEd = Sockat(family, SCCK DGRAM, 0); 


Bind(sockfd, ifi-»ifi addr, salen]; 


printf ("bound #s\n", Sock nropiif-->ifi addr, salen) t; 


is 


| ipid - Porki}) -- 0) 6 /* child »/ 


myadq_echo(sockfid, ifi->ifi addr, &aler,; 


exit (0); 


/* never executed */ 


lifi-»ifi flags & IFF ERCADCASC) { 


f* bry 


o bird borewardercass — address 


af 
*, 


Sozkfd - socket (family, SOCK DGRAN, 0); 


Seteockcpt!eockfa2, SUL EOCKET, SU_REUSEMDDR, kon, sizeofion))); 


sock oct cort(iti-»iti brdaddr, salen, porti; 
if ibini[sockf2, ifi >if: brdaz 


} 


erantt ("bound te\n", Sock nzop(iti-»iti brdacdr, caler; ); 


if 


if (errng == EADORINUSE) | 
pr ict É4"RATDSTNUSE: s\n", 


Stek_ntop [ifi->ifi_brasatr, sslen!); 


Cloze (sockEd) ; 
continue; 


} else 


err sys("bind error far $s", 


ipid = 


wydz echoí(sockfd, ifi-»ifi brdaddr, salen!; 


exit t£); 


Scc« ntop;ifi-»ifi rAdadir, saien)); 


Fork()! == C; | /* child 


JS never Exec abe * 
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, saler) « C; 


MJ i 


, 
+ 


55 /* bini wildcard add=sss */ 


56 scekfd = Socker (family, SOCK_NGRAM, 01; 

57 Setsockop-igcckta, SUL_ŞUCKET, SO REUSEADDH, con, z2-zecf(on)!; 
50 wild - Mallocí(salen); 

59 men-pyiwild. sa, saleni; /* ccpy family and sort */ 
6c scek set wilc(wild, salen); 

1 BinJ3/sockfd. wild, ealen); 

62 printf!'bounc %s\n", Sock_ntop(wild, salen)!; 

63 if ( (pid = Fork()) == 0) [/* child */ 

64 mycg echz2ísockfd, wild, salen); 

65 exit(0); /* never executed */ 

66 } 

6? ex-ti2): 

68 ) 

6S void 

70 mydg echo!int sackfz, SA *myadd-, socklen_t salen) 

ní 

Va int my 

73 caar mesq[MBXLINEI:; 

74 sccklen t — ler; 

75 struct sockaddr *cli; 

7€ cli = Mallocí(szlcn); 

77 fr aos Pa 

7A le a salen; 

7$ n = Recvfrcn(sockfd, mesg, MAXLINE, C, cli, &len); 
BC prints ("child td, datagram from 4s", getc:d;), Sock ntorc[cli, leni); 
81 p-intt(*, to %s\n", Sock atcp(myadd-, salen)) ; 

82 Serdto(socxfd, mesg, n, 0, cli, leni; 

83 ] 

84 ) 


图 E-15 “22.6 节 中 程序 的 协议 无 关 版 本 
第 24 章 
24.1 是 的 。 第 一 个 例子 中 的 2 个 字 节 是 随 单 个 紧急 指针 发 送 的 ， 
该 指针 指向 的 是 b 后 面 的 字 节 。 第 二 个 例子 〈 两 个 函数 调用 ) 中 首先 发 
送 的 是 a 以 及 指向 它 之 后 字 节 的 紧急 指针 ， 接 着 以 另外 一 个 TCP 分 节 发 
送 的 是 bp 和 指向 它 之 后 字 节 的 另外 一 个 紧急 指针 。 
24.2 ”图 E-16 给 出 了 使 用 po11 的 版 本 。 
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oob/teprecv036,¢ 
1 #include "unp.h" 


2 int 

5 main(int argc, char **argv) 

& | 

5 int lzctenzd, ccnntd, n, jusctreadoob = 0; 

6 char zuf [100] ; 

7 struct pollfd  pollf3'1]; 

a if (aruo 55.2) 

9 liscenfd = T-p liscen(NULL. argv[1], NULL); 

10 else if [argc == 3) 

11 listenfd = Top_listeniargv[1], arav[2], NULL); 

12 esa 

13 err quit("usags: tcprecvo3p [ <nost~ ] <porth>"); 
14 conrfd = Accept (listenfd, NULL, NULL|; 

15 polif3[2].fd =- conrf3: 

16 pollf2;U].eventco = POLLRUNCRHM; 

17 fox 4 If 

18 if (Justreadoat == 0! 

19 pollfd[0) .evancs |~ POLLRCBAND; 

20 Pollipollfd, 1, INTTIM!; 

21 if (polifa{a) revents x POLLRDRAND) { 

32 n = Recv(ccnnfd, butz, cigzecf(buff)-1, MSG OCB); 
23 buffini = 0; /* null terminate */ 

24 printi|'read $d OOB byte: &sin", n, buff); 

25 juscreedoot = 1; 

36 polifd[0].evsnze &- -POLLRDEAND; /* turn bit off */ 
27 } 

28 if (pollfd[0] revents & POLLRCMCRM) { 

29 iE ( (n - Read(conntd, buff, sizeot(buff)-1]! -- 0) [ 
30 print: ("received DOP\n") ; 

31 exit); 

2 } 

33 batt[n] = 0; /* null terminate */ 

34 printz|'read td bytes: ts\n", n, butt); 

35 juscresdoot = 4; 

36 } 

37 I 

38 ] 


cob/cprecvü3r.c 
图 E-16 ”以 polL1 代 替 select 的 图 24-6 中 程序 的 修改 版 本 
第 25 章 
25.1 这 样 的 改动 引入 了 一 个 错误 。 问 题 在 于 nqueue 是 在 处 理 数 组 
元 际 dg[iget] 之 前 递减 的 ， 导 致 信号 处 理 函 数 有 可 能 把 新 的 数据 报 从 套 
接 字 读 入 到 这 个 数组 元 素 。 


第 26 章 


26.1 使 用 fork 的 例子 将 会 使 用 101 个 描述 符 ， 其 中 1 个 是 监听 套 接 
字 描 述 符 ， 其 余 100 个 是 已 连接 套 接 字 描 述 符 。 不 过 101 个 进程 《1 个 父 
进程 ，100 个 子 进程 ) 的 每 一 个 只 打开 着 一 个 描述 符 忽 略 任 何其 他 描 
述 符 ， 例 如 服务 器 不 是 守护 进程 时 的 标准 输入 〉 。 然 而 线程 化 的 服务 器 
证 申 个 进程 中 有 101 个 描述 各， 每 个 线程 (包括 主线 程 》 处 理 其 中 一 
ho 


26.2 TCPXEBEZA IE FE FUB 2h 2) ARI aS AY FINA POSEE 
该 FIN 的 ACK) 将 不 会 交换 。 这 使 得 连接 的 客户 端 一 直 处 于 
FIN_WAIT_2 状 态 ( 图 2-4) 。 源 自 Berkeley 的 实现 在 客户 端 保持 这 种 状 
态 超过 11 分 钟 时 就 会 超时 断 连 〈TCPv2 第 825 一 827 页 ) 。 服 务 器 还 可 能 
CRA) 耗 尽 描述 符 。 


26.3 ”这 个 消息 应 该 在 主线 程 已 从 套 接 字 读 入 EOF 而 另 一 个 线程 却 
还 在 运行 时 显示 。 这 么 做 的 一 个 简单 方法 是 声明 名 为 done 且 初始 化 为 0 
的 另 一 个 外 部 变量 。 线 程 copyto 在 返回 之 前 把 该 变量 设置 成 1。 主 线程 
检查 该 变量 ， 如 果 其 值 为 0 就 显示 这 个 出 错 消 息 。 既 然 设置 该 变量 的 线 
程 只 有 一 个 ， 因 而 没有 任何 同步 的 必要 。 
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27.1 没有 变化 ， 所 有 系统 都 是 邻 导 ， 因 此 严格 的 源 路 径 等 同 于 宽 
松 的 源 路 径 。 


27.2 ”我 们 会 在 缓冲 区 的 未 尾 放 一 个 EOL《〈 值 为 0 的 单个 字 节 ) 。 


27.3 ” ping 创建 的 是 一 个 原始 套 接 字 《第 28 章 ) ， 因 此 能 够 获取 使 
用 recvfrom 读 入 的 每 个 数据 报 的 完整 了 首部， 包括 任何 卫 选 项 在 内 。 


27.4 因为 rlogind 是 由 inetd 激 活 的 〈13.5 节 ) ， 而 描述 符 0 正 是 通 
达 客 户 的 套 接 字 。 


27.5 ”问题 在 于 setsockopt 的 第 五 个 参数 以 指 同 长 度 的 指针 取代 长 
度 本 有 身 。 这 个 缺陷 可 能 是 在 开始 使 用 ANSI C 原 型 时 修正 的 。 





这 个 缺陷 结果 是 无 害 的 ， 因 为 正如 我 们 所 提 ， 禁 止 TfP_oPTIONS 套 接 
字 选 项 既 可 以 指定 一 个 空 指 针 作 为 第 四 个 参数 ， 也 可 以 使 用 值 为 0 的 第 
五 个 (长 度 ) 参数 (TCPv2 第 269 页 ) 。 


第 28 章 


28.1 IPv6 首 部 中 的 版 本 字段 和 下 一 个 首部 字段 是 无 法 得 到 的 。 详 
答 长 度 字 段 或 者 作为 茶 个 输出 函数 的 一 个 参数 ， 或 者 作为 来 目 茶 个 输入 
PABA ME che ASE, (Ee OR i Aap eT, ABA RIE AY 
项 本 身 应 用 进程 是 得 不 到 的 。 分 片 首 部 应 用 进程 也 得 不 到 。 


28.2 ”最 终 客户 的 套 接 字 接收 缓冲 区 会 被 填 满 ， 导 致 作为 服务 器 的 
icmpd 守 护 进程 的 write 调用 阻塞 。 我 们 不 希望 发 生 这 种 情况 ， 因 为 它 使 
得 icmpd 在 任何 套 接 字 上 都 停止 处 理 新 的 数据 。 最 容易 的 解决 办 法 是 让 
icmpd 把 它 跟 客 户 的 Unix 域 连接 的 本 地 端 设置 成 非 阻塞 式 。icmpd 然 后 必 
须 改 为 调用 write 以 取代 它 的 包 库 函数 write， 并 仅仅 忽略 EwouLDBLOoCcK 错 
bx 

















28.3 源 自 Berkeley 的 内 核 默认 允许 在 原始 套 接 字 上 的 广播 CTCPv2 
第 1057 页 ) 。So_BROADCAST 套 接 字 选项 只 有 UDP 套 接 字 才 需 指定 。 


28.4 我 们 的 程序 既 不 检查 多 播 地 址 ， 也 不 设置 TIP_MULTICAST_IF 套 
接 字 选项 ， 因 此 内 核 可 能 通过 搜索 224.0.0.1 的 路 由 表 项 选 定 外 出 接口 。 
我 们 也 不 设置 TP_MuLTICAST_TTL 套 接 字 选项 ， 因 此 它 默 认 成 1， 这 是 合理 
的 。 
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第 29 音 


29.1 这 个 标志 表示 跳 转 缓冲 区 已 由 sigsetjmp 设 置 (图 29-10) 。 
尽管 这 个 标志 看 似 多 余 ， 但 是 在 信号 处 理 函 数 建立 之 后 和 调 
用 sigsetjmp 之 前 ，SIGALRM 信 号 被 递交 的 机 会 还 是 存在 的 。 即 使 程序 本 
身 不 会 导致 产生 该 信号 ， 它 也 可 能 以 其 他 方式 产生 ， 辟 如 使 用 ki11 命 


4 


5830 3 


30.1. 父 进程 保持 监听 套 接 字 打 开 着 是 为 以 后 需要 fork 额 外 的 子 进 
程 而 做 准备 《这 是 对 于 现行 代码 的 一 种 改进 ) 。 


30.2. 和 古 的 ， 数 据 报 套 接 字 能 够 取代 字 贡 流 套 接 字 用 于 传递 描述 
符 。 在 使 用 数据 报 套 接 字 情况 下 ， 当 茶 个 子 进程 过 司 终 止 时 ， 父 进程 在 
流 管道 的 拥有 问 接 收 不 到 EOF， 不 过 父 进程 可 以 使 用 SITGchLpD 信 和 号 达到 
这 个 目的 。 这 种 能 够 使 用 srI6cHLD 的 情形 与 28.7 市 中 的 icmpd 守 护 进 程 情 
形 相 比 的 一 个 差别 是 : 后 者 的 客户 和 服务 器 之 间 不 存在 父子 关系， 因此 
流 管 道上 的 EOF 古 服务 器 检测 茶 个 客户 已 消失 的 唯一 办 法 。 








第 31 章 


31.1 我 们 假定 流 关 闭 时 协议 的 默认 处 理 就 是 顺序 释放 ， 这 对 TCP 
来 说 是 正确 的 。 
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QD 本 书 第 2 版 解答 如 下 。 我 们 在 不 支持 多 播 的 一 个 主机 (UnixWare) 上 
运行 过 个 程序 。 

























































































unixware % sock -s 9999 & 以 通 配 地 址 启动 第 一 个 服务 器 
[1] 29697 
unixware % sock -s 206.62.226.37 9999 不 使 用 -A 尝试 启动 第 二 个 服务 器 
can’ t bind local address: Address already in use 
unixware % sock -s -A 206.62.226.37 9999 & 使 用 -A 再 次 尝试 ， 成 功 
[2] 29699 
unixware % sock -s -A 127.0.0.1 9999 & 使 用 -A 启 动 第 三 个 服务 器 ， 成 功 
[3] 29700 
unixware % netstat -na | grep 9999 
tcp 0 0 127.0.0.1.9999 "oe LISTEN 
tcp 0 0 206.62.226.37.9999 NE LISTEN 
tcp 0 0 * 9999 EG LISTEN 
一 一 译 者 注 





Bu ens 我 们 首先 在 不 支持 多 播 的 一 个 主机 (UnixWare 
) 上 党 试 。 


unixware % sock -s -u -A 206.62.226.37 8888 & 第 一 个 服务 器 启动 

[4] 29707 

unixware % sock -s -u -A 206.62.226.37 8888 

can' t bind local address: Address already in use 不 能 启动 第 二 个 服务 器 





我 们 给 这 两 个 运行 实例 都 指定 了 so_REUSEADDR 和 选项， 但 是 它 不 起 作 


用 。 
我 们 接着 在 支持 多 播 但 不 支持 so_REUSEPORT 选 项 的 一 个 主机 (Solaris 
2.6) 上 尝试 。 


solaris26 % sock -s -u 8888 & 第 一 个 服务 器 启动 
[1] 1135 

solaris26 % sock -s -u 8888 

can' t bind local address: Address already in use 












































solaris26 % sock -s -u -A 8888 & 使 用 -A 启动 第 二 个 服务 器 ;成功 
solaris26 % netstat -na | grep 8888 我 们 看 到 重复 的 捆绑 

*.8888 Idle 

*.8888 Idle 


这 个 系统 上 第 一 个 bind 不 必 指 定 so_REUSEADDR， 但 是 第 二 个 起 必须 
BE 。 
最 后 我 们 在 既 支持 多 播 又 支持 so_REUSEPORT 选 项 的 BSD/OS 3.0 上 进行 党 
试 。 我 们 首先 给 一 前 一 后 两 个 服务 器 尝试 S0_REUSEADDR 选 项 ， 但 是 它 不 
起 作用 。 


bsdi % sock -u -s -A 7777 & 

[1] 17610 

bsdi % sock -u -s -A 7777 

can't bind local address: Address already in use 








接着 只 给 第 二 个 服务 器 而 不 给 第 一 个 服务 器 尝试 S0_REUSEPORT 选 
项 。 这 也 不 起 作用 ， 因 为 完全 重复 的 捆绑 要 求 共 享 同 一 捆绑 的 所 有 套 接 
字 都 使 用 该 选项 。 

bsdi % sock -u -s 8888 & 

[1] 17612 


bsdi ?6 sock -u -s -T 8888 
can't bind local address: Address already in use 


最 后 给 两 个 服务 器 都 指定 so_REUSEPORT 选 项 ， 这 是 起 作用 的 。 


bsdi % sock -u -s -T 9999 & 


[1] 17614 

bsdi ?6 sock -u -s -T 9999 & 

[2] 17615 

bsdi % netstat -na | grep 9999 

udp © 0 * ,9999 Et 


udp 0 0 * ,9999 A 


一 一 译 者 注 
(8)“Connection refused”( 连 接 被 拒 ) 错误 的 返回 是 因为 sock 程 序 调 
用 connect， 导 致 服务 器 主机 返回 ICMP 端 口 不 可 达 错 误 。 译 者 注 


由本 书 第 2 版 Stevens 先 生 可 能 据 于 早期 也 v6 规 范 得 出 UDP/IPv6 用 户 数据 
最 大 为 65 487 字 节 (65535-40-8) ， 第 3 版 新 作者 尽管 一 直 在 强调 最 新 的 
IPv6 规 范 ， 在 UDP/IPv6 用 户 数据 的 计算 上 却 仍 然 使 用 第 2 版 不 合 时 的 推 
导 。 译 者 对 此 做 了 修正 。 一 一 译 者 注 


本 书 第 2 版 解答 如 下 。 我 们 运行 该 程序 的 输出 如 下 : 


solaris % udpcli05 224.0.0.1 
hi 








from 206.62.226.34: Thu Jun 19 17:28:32 1997 
from 206.62.226.43: Thu Jun 19 17:28:32 1997 
from 206.62.226.42: Thu Jun 19 17:28:32 1997 
from 206.62.226.40: Thu Jun 19 17:28:32 1997 
from 206.62.226.35: Thu Jun 19 17:28:32 1997 


5 个 给 出 响应 的 主机 运行 的 操作 系统 有 AIX、BSD/OS、Digital Unix 
和 Linux。 没 有 给 出 啊 应 却 上 共有 多 播 能 力 的 仅 有 节点 是 运行 Solaris 2.5 的 
主机 和 Cisco 路 由 器 。 
这 里 发 送 的 那个 UDP 数据 报 的 目的 地 址 是 224.0.0.1， 它 是 所 有 具备 多 播 
能 力 的 节点 都 必须 参加 的 所 有 主机 组 。 该 UDP 数据 报 作为 一 个 多 播 以 太 
网 帧 发 送 ， 因 而 所 有 有 具备 多 播 能 力 的 节点 都 接收 到 它 ， 因 为 它们 都 属于 
这 个 组 。 给 出 啊 应 的 主机 都 把 接收 到 的 数据 报 传递 给 UDP 版 本 的 
daytime 服 务 嚣 〈( 它 通常 是 inetd 的 一 部 分 ) ， 而 不 管 其 套 接 字 是 否 已 经 
加 入 所 有 主机 组 。 然 而 Solaris 的 实现 却 要 求 目 的 地 套 接 字 必须 加 入 所 有 
主机 组 才能 接收 该 数据 报 。 
本 例子 表明 决 不 是 设计 来 啊 应 多 播 数据 报 的 UDP 程 序 也 能 接收 到 多 播 数 
据 报 。 我 们 在 第 20 章 看 到 过 这 个 daytime 例 子 发 生 同样 的 事情 : 决 不 是 
设计 来 响应 广播 数据 报 的 UDP 程 序 也 能 接收 广播 数据 报 。 FAA 


@ 本 书 第 2 版 接着 解答 如 下 。 不 幸 的 是 ， 我 们 尝试 运行 本 程序 的 3 个 系统 
(BSD/OS. Digital Unix 和 Solaris 2.5) 都 允许 如 此 bind， 随 后 发 送 的 
UDP 数据 报 具 有 多 播 源 了 地 址 。 给 出 响应 的 那 5 个 系统 〈 跟 上 一 道 习 题 
一 样 ) 都 在 应 答 中 对 换 源 IP 地 址 和 目的 了 地址 ， 结 果 所 有 5 个 应 答 都 是 
多 播 数据 报 ! 接收 了 这 些 应 答 的 具有 多 播 能 力 的 客户 主机 倒 没 对 它们 过 


























度 反 应 ， 因 为 这 些 应 答 的 目的 端口 就 是 最 初 捆绑 多 播 地 址 时 由 客户 主机 
的 内 核 选 定 的 临时 端口 ， 当 时 该 端口 没有 绑 定 在 任何 套 接 字 上 。 对 于 多 
播 UDP 数 据 报 ，ICMP 不 产生 端口 不 可 达 消 息 。 译 者 注 


Q@ 本 书 第 2 版 解答 如 下 。 在 文 持 多 播 的 主机 solaris 上 这 么 做 的 输出 如 下 : 


solaris % ping 224.0.0.1 
224.0.0.1: 56 data bytes 
64 bytes from solaris.kohala.com (206.62.226.33): icmp seq-0. time-4. ms 
64 bytes from linux.kohala.com(206.62.226.40): icmp seq-0. time-9. ms 
64 bytes from aix.kohala.com (206.62.226.43): icmp seq-0. time-11. ms 
64 bytes from bsdi.kohala.com (206.62.226.35): icmp seq-0. time-13. ms 
64 bytes from alpha.kohala.com (206.62.226.42): icmp seq-0. time=15. ms 
64 bytes from sunos5.kohala.com (206.62.226.36): icmp_seq=0. time=17. ms 
64 bytes from bsdi2.kohala.com (206.62.226.34): icmp seq-0. time=54. ms 
64 bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time=75. ms 
^? 

--224.0.0.1 Statistics---- 
1 packets transmitted, 8 packets received, 8.00 times amplification 
round-trip (ms) min/avg/max - 
solaris % ping 224.0.0.2 
224.0.0.2: 56 data bytes 
64 bytes from bsdi.kohala.com (206.62.226.35): icmp seq-0. time-3. ms 
64 bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time=24. ms 
^? 

--224.0.0.2 PING Statistics ---- 
1 packets transimitted, 2 packets received, 2.00 times amplification 
round-trip (ms) min/avg/max - 3/13/24 








对 于 所 有 主机 组 ， 本 书 第 2 版 图 1-16 中 顶部 以 太 网 上 除 没有 多 播 能 
力 的 unixware 外 所 有 主机 都 给 出 啊 应 〈 当 然 包 括 发 送 主机 本 身 ) 。 对 于 
所 有 路 由 器 组 ， 我 们 期 待 bsdi 给 出 啊 应 ， 因 为 它 是 所 在 子 网 上 的 多 播 路 
由 器 ， 有 一 个 通 往 MBone(B.2 节 ) 的 隧道 ， 且 运 行 厦 mrouted。 路 由 
妖 gw 也 给 出 啊 应 ， 不 过 它 并 不 扮演 多 播 路 由 器 角色 。 
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欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书 旗 
舰 社区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专 业 优质 出 版 资源 和 编 
钼 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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社区 里 部 有 什么 ? 


购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 

另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 
与 作 详 痢 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
H. 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书库 发 货 ， 电子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 + EE 本 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


特别 优惠 








购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 ”使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 
| ASMTE 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 (本 优惠 券 只 
可 =R) s 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勒 误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写 作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 
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会 议 活动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 

















官方 微 博 





QQ 群 ，368449889 
社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 寞 步 社 区 ，@ 人 民 邮 电 出 版 社 - 信 息 技术 分 社 
投稿 及 咨询 : contact@epubit.com.cn 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@epubit.com.cn， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 异步 社区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@epubit.com.cn. 


在 这 里 可 以 找到 我 们 : 





e GE: @ 人 邮 异 步 社区 
e QQ 和 群 : 368449889 
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